1. Bag of Words ---
2. TF-IDF ---
3. Embedding ---

アルゴリズム解説

1. Bag of Words (BoW) - 単語の出現数

文章を「単語の袋」として扱い、どの単語が何回出てきたかだけを数える最もシンプルな手法です。文脈や語順は無視されます。文字が1文字でも異なると「別の単語」とみなされるため、類義語の判定はできません。

2. TF-IDF - 重要度の重み付け

BoWを改良し、「その文章でよく出るが、他の文章ではめったに出ない単語」を重要視します(例:『AI』は重要だが、『です』は重要じゃない)。これにより、特徴的なキーワードの一致をより正確にスコア化できますが、依然として文字が違う類義語には対応できません。

3. Embedding (埋め込みベクトル) - 意味の数値化

深層学習モデルを用いて、言葉を数百次元の空間上の「点(ベクトル)」に変換します。「AI」と「人工知能」が近い位置に配置されるよう学習されているため、一文字も重なっていなくても意味が似ていれば高いスコアを算出できるのが最大の特徴です。