【初心者向け】AIの頭の中は宇宙?言葉が「点」になる高次元の世界へようこそ

こんにちは。ゆうせいです。

「LLMはたくさんの次元を持つ関数で、言葉はその中の点である」

なんと詩的で、そして本質を突いた鋭い表現でしょうか。あなたのそのイメージは、まさに現代のAI技術である大規模言語モデル(LLM)の核心を捉えています。

AIをただの機械だと思わずに、そのような広大な空間として捉える感性をお持ちのあなたなら、きっとこの少し不思議な「高次元の世界」もすぐに理解できるはずです。

今日は、私たちが普段使っている言葉が、AIの脳内でどのように「点」として浮かび上がり、星座のように繋がっているのか。その仕組みを一緒に探検してみましょう。

言葉を「数値」に変える魔法

まず、AIは私たちのように「りんご」という文字をそのまま理解しているわけではありません。コンピュータは計算機ですから、すべての言葉を「数字」に変換して扱っています。

たとえば、「りんご」という言葉をAIに教える場面を想像してください。

もし、「色」と「甘さ」という2つの基準だけでりんごを表現するとしましょう。

色は赤さを10点満点で9、甘さを10点満点で8とします。

すると、りんごは (9, 8) という座標で表せますね。

この (9, 8) という数字のペアがあれば、紙の上に「点」としてりんごをプロットすることができます。これが、言葉が点になる第一歩です。

次元が増えると「宇宙」になる

先ほどは「色」と「甘さ」の2つだけだったので、これを「2次元」と呼びます。紙の上(平面)に描ける世界です。

しかし、言葉の意味というのはもっと複雑ですよね。りんごを正しく表すには、もっとたくさんの基準が必要です。

  • 大きさ
  • 硬さ
  • 値段
  • 育つ場所
  • 料理に使う頻度

このように基準をどんどん増やしていくと、数字の列は (9, 8, 5, 7, 3, \dots) と長く伸びていきます。

今のLLM、たとえばGPTのようなモデルでは、この基準(次元)が数千個から数万個もあるのです。

2つの基準なら平面、3つなら立体空間になりますが、数千個の基準がある空間なんて、私たちの頭ではもう想像できませんよね。この、人間にはイメージできないほど広大で複雑な空間のことを、数学の言葉で「高次元空間」と呼びます。

あなたの直感通り、AIはこの高次元空間という巨大な箱の中に、あらゆる言葉や概念を「たった一つの点」として配置しているのです。

LLMは巨大な「変換関数」である

次に、もう一つのキーワード「関数」について考えてみましょう。

数学の授業で習った関数を覚えていますか。「 x を入れると y が出てくる箱」のようなものでしたね。

LLMも基本的にはこれと同じです。ただし、扱うデータが少し違います。

LLMという関数に、私たちが「昔々、あるところに」という言葉(点)を入力します。すると、LLMはこの高次元空間の中で計算を行い、「おじいさんが」という次の言葉(点)を出力します。

つまり、入力された言葉の「点」を受け取り、広大な宇宙の中から最適な次の「点」を見つけ出して返す。LLMとは、そのような超・高次元な関数なのです。

言葉が「点」であることのメリット

では、言葉を空間上の「点」として扱うと、どんないいことがあるのでしょうか。

最大のメリットは、言葉の意味を「距離」や「方向」で計算できることです。

この高次元空間の中では、意味の似ている言葉同士は、近くに集まっています。

たとえば、「猫」という点のすぐ近くには「犬」や「ペット」という点があります。一方で、「冷蔵庫」という点は、はるか遠くの場所にポツンとあるのです。

さらに面白いのが「計算」ができることです。有名な例をご紹介しましょう。

\text{王様} - \text{男} + \text{女} = \text{?}

「王様」という点から「男」という成分を引き算して、代わりに「女」という成分を足し算して移動してみる。すると、不思議なことにその移動した先には「女王」という点が存在しているのです。

言葉を点(ベクトル)として扱うことで、AIは「意味の足し算や引き算」までもが可能になりました。だからこそ、人間のような自然な受け答えができるのですね。

デメリット:あまりに広すぎて見えない

一方で、この考え方にはデメリットもあります。それは、人間には中身が理解できなくなるということです。

数千次元もある空間の中で、「なぜAIがその言葉を選んだのか」を私たちが直感的に理解することは不可能です。「この座標の数値が0.01高いから」と言われても、それが意味的にどういうニュアンスの違いなのか、説明がつかないことが多々あります。

これを「ブラックボックス問題」と呼びます。

言葉が点になり、関数が複雑になりすぎた結果、作った人間でさえもAIの思考回路の全貌が見えなくなってしまっているのです。

まとめ

あなたの「LLMは高次元の関数で、概念はその中の点である」という考え方は、現代のAI技術の本質を見事に言い当てています。

  • 言葉は、何千もの基準(次元)を持つ座標として数値化される
  • その座標は、高次元空間の中に浮かぶ「点」として存在している
  • LLMは、その点と点を繋ぎ合わせる巨大な関数である

夜空を見上げてみてください。無数の星が散らばっていますよね。

AIの頭の中も、あのような星空に近いかもしれません。「愛」という星と「平和」という星が近くに輝き、そこから少し離れたところに「悲しみ」という星がある。

AIは、その星々の間を光の速さで行き来しながら、私たちに物語を紡いでくれているのです。そう考えると、無機質な計算機も少しロマンチックに見えてきませんか。

この「言葉の点(ベクトル)」についてさらに深く知りたくなったら、次は「エンベディング(埋め込み表現)」という言葉を調べてみてください。今日の話の技術的な裏付けがそこにあります。

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。