【機械翻訳】BLEUスコアの名前の由来は「青」じゃない?代役が支えるAI評価の裏側
こんにちは。ゆうせいです。
最近、Google翻訳やDeepLのような翻訳AIの性能を比較する記事で、BLEUスコア という言葉を目にしたことはありませんか。
読み方はそのまま「ブルー・スコア」です。
この名前を聞いて、何を想像しますか。多くの人が「青色(Blue)」に関係があるのかな、と考えると思います。何かクールで知的なイメージがありますよね。
でも実は、この名前にはもっと人間臭い、そして少し謙虚な意味が込められているのをご存知でしょうか。
今回は、機械翻訳の世界で最も有名なこの指標の名前の由来と、なぜそのように呼ばれるのか、その仕組みを高校生でもわかるように解説していきます。
BLEU=「代役」を務める評価者
いきなり正解からお話ししましょう。BLEU は、以下の英語の頭文字を取ったものです。
BiLingual Evaluation Understudy
日本語に直訳すると 二言語評価の代役 となります。
ここで一番重要なキーワードは、最後の Understudy(アンダースタディ) です。これは演劇用語で 代役 を意味します。
なぜ「代役」が必要だったのか?
想像してみてください。あなたは今、新しい翻訳AIを開発しました。そのAIがどれくらい賢いかを知るためには、どうすればいいでしょうか。
一番確実な方法は、英語と日本語がペラペラな「人間」に翻訳結果を読んでもらい、「これは自然だね」「ここは間違いだね」と採点してもらうことです。
しかし、AIの開発中には何万、何百万という文章をテストします。そのすべてを人間がチェックしていたらどうなるでしょうか。お金も時間もいくらあっても足りませんよね。人間は疲れるし、寝る時間も必要です。
そこで研究者たちは考えました。
「忙しくて高価な『人間様』の代わりに、文句を言わずに一瞬で採点してくれる『代役』を作ろう」
こうして生まれたのが BLEU です。つまり、BLEUスコアとは「本物の審査員(人間)が来るまでのつなぎとして、仮で評価をしてくれる代役」という意味なのです。
この名前には、「あくまで自分は代役であり、完璧な人間には敵わないけれど、役に立ちますよ」という謙虚な姿勢が表れている気がしませんか。
どうやって採点しているの?
では、この「代役」はどうやって翻訳の良し悪しを判断しているのでしょうか。実は、AIは言葉の意味を理解して採点しているわけではありません。
やっていることは非常に単純な 間違い探し(一致探し) です。
- まず、人間が翻訳した 正解の文章(参照訳) を用意します。
- 次に、AIが翻訳した 文章 を用意します。
- この2つを見比べて、単語の並びがどれくらい一致しているかを計算します。
たとえば、以下のような状況です。
- 正解:私は 猫 が 好き です
- AI訳:私は 猫 が 好き だ
この場合、「私は」「猫」「が」「好き」までの4つの単語が一致していますね。BLEUスコアは、このように 重なっている単語の割合(N-gramの一致率) を計算して、 から
(または
から
)の数字で点数をつけます。
たくさん一致していれば「人間の翻訳に近いから優秀だ」と判断するのです。
BLEUスコアのメリットとデメリット
「代役」としての役割を理解すると、このスコアの良い点と悪い点が見えてきます。
メリット:とにかく早くて安い
最大のメリットは、計算機があれば一瞬で結果が出ることです。
- コストゼロ:人間に謝礼を払う必要がありません。
- 客観的:その日の気分で点数が変わることがなく、何度計算しても同じ結果になります。
- 高速:開発中のAIを毎日テストして、昨日より賢くなったかをすぐに確認できます。
デメリット:意味まではわからない
一方で、あくまで「単語の並びを見ているだけ」なので、融通がききません。
たとえば、正解が「美しい花」だったとします。
AIが「綺麗な花」と翻訳した場合、人間なら「意味は合ってるからOK」と判断できますよね。
しかし、BLEUスコア(代役)はこう言います。
「正解リストに『綺麗』なんて単語はありません。『美しい』じゃないので減点です!」
このように、同じ意味でも違う単語を使うとスコアが下がってしまうことがあります。また、「てにをは」が少し違うだけで意味が通じる文章でも、厳しく評価されてしまうことがあるのです。
まとめ
いかがでしたか。
BLEUスコアという名前には、人間の代わりを務める「代役(Understudy)」という意味が込められていました。
「青」という意味ではなかったことに驚かれたかもしれませんが、この名前の由来を知ると、完璧ではないけれど一生懸命働いてくれるこの指標に、少し愛着が湧いてきませんか。
現在のAI開発の現場でも、BLEUスコアは依然として重要な指標ですが、それだけで全てを判断することは少なくなってきました。最近では、意味の近さを測れる「METEOR」や、AI自身に評価をさせる「COMET」など、より高度な新しい「代役」たちも登場しています。
今後の学習として、まずは Python などのプログラムで実際に BLEUスコアを計算してみるのがおすすめです。NLTK や SacreBLEU といったライブラリを使えば、驚くほど簡単に計算できますよ。
ぜひ、「代役」がどのような判定を下すのか、自分の目で確かめてみてください。
セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。