AIの翻訳精度を測るものさし!BLEUスコアの仕組みをマスターしよう
こんにちは。ゆうせいです。
前回は、同じ言葉を繰り返すズルを許さない、修正された的中率についてお話ししましたね。でも、単語が合っているだけで、本当に「良い文章」だと言えるのでしょうか。例えば「私は りんごを 食べる」と「食べる 私は りんごを」では、使っている単語は同じでも、後者は日本語として少し不自然ですよね。
今日は、そんな文章の自然さをより厳密に評価する仕組み、BLEUスコアについて解説します!
BLEUスコアは4つの視点の合わせ技
BLEUスコアの最大の特徴は、1つずつの単語の一致(1-gram)から、4つの連続する単語の一致(4-gram)までを同時にチェックすることです。
なぜ、わざわざ4つまで数える必要があると思いますか。
実は、nの数字が大きくなるほど、文章の「流暢さ」を測ることができるようになるからです。1-gramが合っていれば「語彙」が正しく、4-gramまで合っていれば「フレーズや構文」が正しいと判断できるわけです。
幾何平均という計算の魔法
1-gramから4-gramまで、それぞれの的中率(precision)が出たら、それらを合体させて一つのスコアにします。このとき、単純に足して4で割る「相加平均」ではなく、掛け算をしてルートをとる「幾何平均」という方法を使います。
なぜ掛け算をするのでしょうか。
それは、どれか一つでもゼロ(全く一致しない)があると、スコア全体がガクンと下がるようにするためです。単語は合っていても、語順がめちゃくちゃであれば、評価を厳しくするという強い意志の表れですね!
4つの的中率を とすると、その平均は次のように表せます。
平均的中率
※ここで は各n-gramの重み(通常は
)を指します。
短すぎる文章へのペナルティ
BLEUスコアにはもう一つ、大切なルールがあります。それが「短罰(Brevity Penalty)」です。
AIが慎重になりすぎて、「私は」という一言だけを出力したとしましょう。もし正解の文が「私は昨日公園で犬と一緒に遊びました」だとしたら、「私は」の部分だけを見れば的中率は100パーセントになってしまいます。
これでは、肝心な情報を伝えていないのに高得点になってしまいますよね。そこで、正解の文よりも極端に短い場合は、スコアを強制的に減点する仕組みが取り入れられています。
ペナルティ
最終スコア
このように、長さのバランスまで厳しくチェックしているのです。
メリットとデメリット
このBLEUスコアが、なぜこれほどまでに世界中で愛用されているのか、その理由と限界を整理しましょう。
| 項目 | 内容 |
| メリット | 計算が非常に高速で、大量のデータを瞬時に評価できる |
| メリット | 人間の感覚に近い評価を、客観的な数値として出すことができる |
| デメリット | 「昨日」を「前日」と言い換えただけで、不正解とみなされてしまう |
| デメリット | 文法的に正しくても、意味が全く逆の文章(否定語の欠落など)を見抜けない |
これからの学習の指針
BLEUスコアを理解できれば、自然言語処理の評価の基礎はバッチリです!ただ、表にある通り「言い換え」に弱いという弱点もあります。
今後は、次のようなトピックを学んでいくと、より深い視点が手に入りますよ。
- 単語の意味の近さをベクトルで計算する METEOR(メテオ)
- 文全体の意味の類似度をAI自身が判定する BERTScore(バートスコア)
- 人間が実際に評価したデータと、これらの指標がどれくらい相関しているかの研究
言葉のニュアンスを数値化する挑戦は、今も日々進化しています。あなたは、言葉の「正しさ」を測るために、他にどんな要素が必要だと思いますか。