解説: 各モデルの"記憶"と"注目"の仕組み
- RNN (Recurrent Neural Network)
- 仕組み: 前の単語の情報を、次の単語の処理に「ループ」させて渡します。記憶の仕組みが非常にシンプル。
長所: 構造が単純で、基本的な時系列処理が可能。
短所: ループを繰り返すうちに古い情報が薄れてしまう「長期依存性の問題」があります。長い文章になると、文頭の単語を忘れてしまいます。
- LSTM (Long Short-Term Memory)
- 仕組み: RNNの弱点を克服するために、記憶を専門に司る「セル状態」と、情報の取捨選択を行う3つの「ゲート」(忘却、入力、出力)を持ちます。これにより、重要な情報を長く保持し、不要な情報を忘れることができます。
長所: 長期的な依存関係を学習できる。
短所: 構造が複雑。処理は依然として単語ごとに行うため、並列計算が難しい。
- Transformer
- 仕組み: 「Self-Attention」という画期的な機構を使います。文中のすべての単語のペアの関連度を計算し、「どの単語がどの単語に注目すべきか」を動的に判断します。単語を順番に処理する必要がなく、文全体を一度に見ることができます。
長所: 文脈全体を捉えるのが得意。並列計算が可能で、大規模なデータで非常に高い性能を発揮する。現代の多くの大規模言語モデル(GPTなど)の基礎となっています。
短所: 計算コストが高い。