【Amazonの正体】なぜ「あなたへのオススメ」は無視できないのか?嗜好を暴く数式

こんにちは。ゆうせいです。

ネットショッピングをしているとき、あるいは動画サイトを見ているとき、「この商品をチェックした人は、こんな商品も見ています」という表示についつい惹かれてしまった経験はありませんか?

「なんで私がこれ好きだってわかったの? 盗聴されてる?」

なんて怖くなったことがあるかもしれません。

安心してください。それは魔法でも盗聴でもなく、あなたの行動履歴から「好み」を計算する数式が働いているだけなのです。

今日は、世界中のWebサービスで利益を生み出し続けている「広告と推薦の数式」についてお話しします。

1. 消費者の嗜好パターンに訴える「広告の数式」

今回ご紹介するのは、統計学の世界では 「相関係数(そうかんけいすう)」 と呼ばれる、非常に有名な数式です。

r_{x,y} = \frac{\sum (M_{i,x} - \overline{M_x})(M_{i,y} - \overline{M_y})}{\sqrt{\sum (M_{i,x} - \overline{M_x})^2 \sum (M_{i,y} - \overline{M_y})^2}}

うわっ、今までで一番長くて複雑そう! と思いましたか?

でも、怯まないでください。この式がやっていることは、実は「相性診断」そのものなんです。

2. 数式を解読しよう

この数式は、ユーザーXさんとユーザーYさんの好みが 「どれくらい似ているか」 を数値化するものです。

  • r_{x,y}相関係数 です。 $+1$ に近いほど「趣味が完全に一致!」、 $-1$ に近いほど「趣味が真逆」、 0 なら「無関係」を表します。
  • M評価(点数) です。例えば、映画の5段階評価だと思ってください。
  • \overline{M} (Mバー): 平均点 です。その人の評価の甘さ(平均的に何点つけるか)を表します。

式が教えてくれること

この複雑な分数の意味を、ざっくり翻訳するとこうなります。

分子: 「Xさんが高評価したものを、Yさんも高評価しているか?」という一致度を足し合わせたもの。

分母: 評価の「ブレ幅」を調整して、基準をそろえるもの。

例えば、あなたがアクション映画Aを「面白い!」と思い、Bさんがアクション映画Aを「最高!」と思ったとします。

この式を通すと、あなたとBさんは「プラスの相関がある(気が合う)」と判定されます。

すると、システムはこう考えます。

「気が合うBさんが『泣ける!』と絶賛している恋愛映画Cなら、きっとあなたも気に入るはずだ」

これが、オススメ商品が表示される基本的な仕組みです。

3. エンジニアが知っておくべき専門用語

この仕組みをエンジニアリングの世界ではこう呼びます。

協調フィルタリング(Collaborative Filtering)

「多くのユーザーの協力(Collaborative)」を得て、情報の「選別(Filtering)」を行う技術です。

商品自体の特徴(赤い、丸い、など)を分析するのではなく、「Aさんが好きならBさんも好きだろう」という 人間同士のつながり に注目するのが特徴です。

AmazonやNetflixのレコメンドエンジンの基礎となっている技術です。

ピアソンの積率相関係数

今回の数式の正式名称です。

統計学の基本中の基本であり、エンジニアとしてデータ分析をするなら避けては通れない概念です。

「風が吹けば桶屋が儲かる」のような、一見関係なさそうな2つの事柄の間に、実は密接な関係(相関)があることを見つけ出すための道具です。

4. この考え方を使うメリットとデメリット

メリット

「自分でも気づかなかった『好き』に出会える」 ことです。

自分の検索ワードだけで探していると、どうしても知識の範囲内のものしか見つかりません。

しかし、この数式を使えば「あなたと似たセンスの他人が見つけた、未知の素晴らしいもの」を提案してもらえます。これが、ネットサーフィンが止まらなくなる理由であり、企業の売上を爆発させるエンジンでもあります。

デメリット

「フィルターバブル(情報の偏り)に閉じ込められる」 ことです。

「好きなもの」ばかりオススメされるようになると、心地よいですが、視野が狭くなります。

自分と反対の意見や、全く興味のないジャンルの情報が遮断されてしまうため、考え方が偏ったり、新しい発見がなくなったりするリスクがあります。エンジニアとしては、あえて「ランダムな要素」を混ぜて、このバブルを破る工夫も求められます。

5. 今後の学習の指針

これからのWebマーケティングやアプリ開発では、「ユーザーに何を提示するか」が勝負の分かれ目になります。

単に人気ランキング順に並べるのではなく、「このユーザー x にとって相関係数 r が高いアイテムは何か?」を計算して出し分ける。

そんな 「パーソナライズ(個人化)」 の技術を学ぶ第一歩として、まずは統計学の「相関」という概念をマスターしてみてください。

次回は、ビジネスの究極の目的である「利益」をどうやって最大化するか?

強化学習の基礎となる「⑧報酬の数式」について解説します。AIが賢くなる仕組みに迫りますよ

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。