2つの文章がどれだけ似ているかを計算してみましょう。単語の出現回数から文章をベクトル化し、コサイン類似度を求めます。
コサイン類似度は、2つのベクトルが指し示す「向き」がどれだけ似ているかを測るための指標です。-1から1の間の値をとり、機械学習、特に自然言語処理の分野で広く使われています。
重要なのは、ベクトルの「大きさ(長さ)」を無視して「向き」だけを見る点です。これにより、「私は犬が好き」と「私は犬がとてもとても好きです」のように、文章の長さが違っても、内容(単語の構成)が似ていれば高い類似度スコアが得られます。