ナイーブベイズ分類器の「ナイーブ」って何?その理由と仕組みをやさしく解説

こんにちは。ゆうせいです。

今回は機械学習でよく登場する「ナイーブベイズ(Naive Bayes)」についてお話しします。
このアルゴリズム、名前に「ナイーブ(naive)」=「素朴な」とついているのが、ちょっと気になりませんか?

「素朴ってどういう意味?なんだか頭が悪そうな名前だけど、大丈夫なの?」
そんな疑問をもったあなたへ、今日はしっかり解説していきます!


「ナイーブ」=「ありえないくらい単純な仮定」をするから

そもそも「ベイズ」って?

ナイーブベイズは「ベイズの定理(Bayes' Theorem)」という数式をベースにしています。

ベイズの定理とは、ある事象が起こったときに、それがどれくらいの確率で起きたのかを逆算するための公式です。式はこちらです。

P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
読み方: ある事象Bが起こったときに、事象Aが起こっていた確率は、事象Aが起こる確率と、Aが起こっているときにBが起こる確率の積を、Bが起こる確率で割ったもの

たとえば、「メールがスパム(A)」で「『お金』という単語が含まれていた(B)」という条件があるとき、「このメールはスパムである確率(P(A|B))」を求められるわけです。


「ナイーブ」とは何が素朴なのか?

ズバリ、「特徴量がすべて独立している」と仮定するところが「ナイーブ」と呼ばれる理由です。

特徴量って?

特徴量(feature)とは、データの個々の項目のことです。たとえば、スパムメール分類ならこんな特徴があります。

  • 件名に「無料」があるか?
  • 本文に「今すぐクリック」があるか?
  • 差出人が不審なアドレスか?

これらの情報を使って「スパムかどうか」を判断していくのがナイーブベイズです。


ナイーブな仮定とは?

ナイーブベイズでは、「これらの特徴量が互いに影響を与え合っていない」と仮定します。
つまり、「件名に『無料』とあるメール」と「本文に『今すぐクリック』とあるメール」は無関係
とみなすのです。

でも、実際はどうでしょう?

両方そろっていたら、よりスパムっぽいですよね。

つまり、本当は関連があるはずなのに、それを無視して単純化してしまう
この「現実とは違うけど、計算が楽だから全部独立だと思っちゃおう」という姿勢が「ナイーブ(素朴)」なんです。


メリットとデメリットを整理!

項目内容
メリットシンプルで速い。学習データが少なくても使える。
デメリット特徴量の独立性の仮定が現実とズレることが多い。精度が出ないこともある。

たとえば、文章の分類などでは、単語どうしの関連性が無視されてしまいます。


例え話で理解しよう!

お弁当を作るとき、「ご飯」「おかず」「漬物」を選ぶとします。

ナイーブベイズの考え方では、
「ご飯を白米にしたから、おかずは魚にしよう」みたいな関連を考えません
「ご飯は白米」「おかずは魚」「漬物はたくあん」…とそれぞれバラバラに選ぶのです。

でも現実は違いますよね。
白米と魚は合うけど、白米と激辛キムチだと合わないこともある。
こういった「相性」を完全に無視して判断するのが、ナイーブなんです。


それでも使われる理由は?

一番の理由は「速くて簡単」だから。

大量のデータを一気に処理したいとき、しかも「そこまで精度が高くなくてもいい」場面では、ナイーブベイズはとても優秀です。

たとえば、以下のような用途に向いています。

  • スパムメールの分類
  • テキストの感情分析
  • ニュース記事のジャンル分け

精度よりもスピードやシンプルさが求められるシーンでは、ナイーブであることがむしろ武器になります。


数式で見るナイーブベイズの分類式

分類対象を $C$(クラス)とし、特徴量を $x_1, x_2, ..., x_n$ としたとき、

P(C|x_1, x_2, ..., x_n) \propto P(C) \cdot \prod_{i=1}^n P(x_i|C)

読み方: クラスCである確率は、クラスCの事前確率と、各特徴量がそのクラスに属する条件付き確率の積に比例します。

この「特徴量の積」を使う部分が、全部独立であるという前提から来ているのです。


まとめ

  • ナイーブベイズの「ナイーブ」は「特徴量が独立している」と素朴に仮定してしまうところから来ている
  • この仮定は現実とズレることもあるが、その分シンプルで高速
  • 精度が必要な場面では不利になるが、前処理が少なくて済むという利点もある

次のステップ

ナイーブベイズを理解したら、こんなことに挑戦してみましょう!

  • 実際にメールデータでナイーブベイズを使ってみる
  • 特徴量を意図的に関連性の強いものに変えて精度の変化を観察
  • ロジスティック回帰や決定木など、他の分類器と精度や計算速度を比較

アルゴリズムは「使いどころ」がとても大切です。
その場にふさわしい道具を選べるよう、少しずつ理解を深めていきましょう!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。