文章で学ぶコサイン類似度

使ってわかる!文章類似度デモ

2つの文章がどれだけ似ているかを計算してみましょう。単語の出現回数から文章をベクトル化し、コサイン類似度を求めます。

Step 1: 語彙リストの作成

Step 2: 文章のベクトル化 (出現回数)

Step 3: コサイン類似度の計算

コサイン類似度とは?

コサイン類似度は、2つのベクトルが指し示す「向き」がどれだけ似ているかを測るための指標です。-1から1の間の値をとり、機械学習、特に自然言語処理の分野で広く使われています。

重要なのは、ベクトルの「大きさ(長さ)」を無視して「向き」だけを見る点です。これにより、「私は犬が好き」と「私は犬がとてもとても好きです」のように、文章の長さが違っても、内容(単語の構成)が似ていれば高い類似度スコアが得られます。