AIで未来を予測?識別関数と識別モデルの違いをスッキリ解決

AIで未来を予測?識別関数と識別モデルの違いをスッキリ解決!

こんにちは。ゆうせいです。

あなたは機械学習という言葉を聞いて、どんなイメージを持ちますか。なんだか難しそうな数学の山を想像していませんか。実は、私たちが日常的に行っている「これはリンゴかな?それとも梨かな?」という判断を、コンピュータにやってもらうための仕組みが機械学習です。

今回は、その中でも特にお問い合わせが多い、識別関数と識別モデルの違いについてお話しします。ここを理解すると、AIがどうやって物事を見分けているのかが手に取るようにわかりますよ!

識別関数とは直感的な境界線のこと

まずは識別関数から考えてみましょう。

専門用語:識別関数(しきべつかんすう)

これは、データを種類ごとに分けるための境界線そのものを作る手法です。

例えば、机の上に大量の赤いボールと青いボールが散らばっていると想像してください。あなたならどうやって分けますか。おそらく、その間にサッと一本の線を引くはずです。その引いた線そのものが識別関数です。

数式で表すと、判定の結果である y は、入力されたデータ x に対して次のような形をとります。

y = f( x )

この式には、確率という考え方が入っていません。境界線の右側なら A 、左側なら B というように、白黒はっきりつけるのが特徴です。

識別関数のメリットとデメリット

メリットは、計算が非常にシンプルで高速な点にあります。余計なことを考えず、とにかく境界線を引くことに特化しているからです。

一方でデメリットは、あやふやな判断ができないことです。境界線ギリギリにあるデータに対しても、自信満々でどちらかに振り分けてしまいます。本当は 51パーセント くらいの確信度しかないのに、 100パーセント 正解だと言い切ってしまうような、少し強引な性格の持ち主だと言えるでしょう。

識別モデルは確率を味方につける

次に識別モデルについて見ていきましょう。

専門用語:識別モデル(しきべつモデル)

こちらは、データが特定のクラスに属する確率を直接計算する手法です。

先ほどのボールの例で言うと、単に線を引くのではなく、ある場所にあるボールを見て「これは 80パーセント の確率で赤、 20パーセント の確率で青だな」と、もっともらしさを計算します。

数式では、データ x が与えられたときにクラス C である確率を、次のように条件付き確率 p で表現します。

p( C \mid x )

識別関数・識別モデルとクラス分類

混乱しやすい三つの言葉を、スッキリ整頓してみましょう!

まず、クラス分類は「解決したい問題そのもの(ゴール)」を指します。

一方で、識別関数と識別モデルは、そのゴールにたどり着くための「解き方の種類(手段)」です。

クラス分類:やりたいこと

これは、データをあらかじめ決められたグループに分けるタスクです。

「このメールは迷惑メールか?」と分ける行為そのものを指します。

識別関数:境界線を引く作戦

データを分けるための「境界線」を直接見つける方法です。

確率などは考えず、 y = f( x ) という式で、線より上か下かという基準だけでスパッと白黒つけます。

識別モデル:確率で測る作戦

データがそのグループに属する「確率」を計算する方法です。

p( C \mid x ) という式を使い、「 80パーセント の確率で合格」といった曖昧さを残した判断ができます。

つまり、クラス分類という大きな目的の中に、識別関数や識別モデルといった具体的な道具が入っているという関係性ですね。

識別モデルのメリットとデメリット

最大のメリットは、判断の自信を数値化できることです。これにより、自信がないときは人間に判断を仰ぐといった柔軟なシステムが作れます。

デメリットとしては、識別関数に比べて計算の手順が増え、処理に時間がかかる傾向があることです。慎重に確率を積み上げる分、少し手間がかかるわけですね。

結局どっちを選べばいいの?

さて、ここであなたに質問です。

もしあなたが自動運転車のブレーキシステムを作るとしたら、どちらを使いたいですか。

正解は、多くの場合で識別モデルです。なぜなら、目の前の物体が人間である確率が 50.1パーセント なのか 99.9パーセント なのかを知ることは、安全管理において極めて重要だからです。

一方で、大量のメールをスパムかどうか一瞬で仕分けたいときは、スピード重視の識別関数が活躍することもあります。


識別手法の違いを比較表でチェック

特徴識別関数識別モデル
判断基準境界線を引く確率を計算する
性格白黒はっきりつける慎重で曖昧さを認める
処理速度とても速いやや遅い
主な手法サポートベクターマシンなどロジスティック回帰など

まとめと今後のステップ

識別関数はスパッと線を引く職人、識別モデルは確率を語る統計家。そんなイメージで覚えると忘れません。

ここまでの内容は理解できましたか。専門用語が並ぶと難しく感じますが、身近な例えに置き換えれば、意外とシンプルですよね。

次のステップとしては、実際にこれらの手法が使われているロジスティック回帰やサポートベクターマシンの具体的な仕組みを調べてみることをおすすめします。数学の記号が出てきても、今回学んだ概念があれば、きっとスムーズに理解できるはずです。

セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。