機械学習の基礎 | E検定テキスト | セイコンサルティンググループ

機械学習の第一歩へようこそ！

初心者でも挫折しない、E資格対策を詳しく解説していきますね。

第1章：学習のルールを知ろう！AIはどうやって賢くなる？

あなたはAI（人工知能）がどうやって物事を学んでいるか、想像したことはありますか？「魔法のように勝手に賢くなる」と思われがちですが、実はそのプロセスは驚くほど論理的なんです。

第1章では、機械学習の土台となる「学習の分類」についてお話しします。ここを理解しておかないと、後で難しいアルゴリズムが出てきたときに「これは結局何をしようとしているの？」と迷子になってしまいます。

まずは、AIにとっての「先生」の存在に注目して、3つの学習スタイルを整理していきましょう！

1. 教師あり学習（Supervised Learning）

機械学習の中で最もポピュラーなのが、この「教師あり学習」です。

仕組みを高校生向けに解説

これは、学校で「問題集」と「解答ページ」をセットで渡されて勉強するスタイルそのものです。

例えば、AIに「リンゴ」を覚えさせたいとします。このとき、リンゴの画像と一緒に「これはリンゴだよ」という正解のラベルをセットにして教えます。これを大量に繰り返すと、AIは「赤い色をしていて、丸い形をしていればリンゴだ！」というルール（モデル）を自分で作り出すのです。

メリットとデメリット

メリット：正解がはっきりしているため、予測の精度を高めやすい。
デメリット：大量の「正解付きデータ」を人間が用意しなければならず、手間とコストがかかる。

2. 教師なし学習（Unsupervised Learning）

次は、先生も解答もいない「教師なし学習」です。

仕組みを高校生向けに解説

解答がないのにどうやって学ぶのか、不思議に思いませんか？

これは、机の上にバラバラに置かれた「よく分からない部品」を、形や色が似ているもの同士でグループ分けする作業に似ています。

AIは「これが何であるか」は知りませんが、「AとBは形が似ているから同じ仲間、Cは全然違うから別物」という風に、データの中に隠れた「構造」や「パターン」を自力で見つけ出します。これを専門用語で「クラスタリング」と呼びます。

メリットとデメリット

メリット：人間が正解ラベルを貼る必要がないため、膨大な未整理データをそのまま活用できる。
デメリット：AIが分けたグループが、人間にとって意味のあるものになるとは限らない。

3. 半教師あり学習（Semi-supervised Learning）

最後に紹介するのが、上記2つのいいとこ取りをした「半教師あり学習」です。

仕組みを高校生向けに解説

想像してみてください。1万枚の画像データがありますが、忙しくて100枚にしか「正解ラベル」を貼れませんでした。残りの9,900枚は正解が分からない状態です。

このとき、わずかな正解データをヒントにして、残りの膨大な正解なしデータの正体を推測していくのが半教師あり学習です。

「正解がある100枚」で大まかなルールを学び、それを「正解がない9,900枚」に当てはめて学習を補強します。

メリットとデメリット

メリット：ラベル付きデータが少なくても、大量のラベルなしデータを使うことで精度を底上げできる。
デメリット：最初の少ない正解データが間違っていたり偏っていたりすると、全体の学習がガタガタになってしまう。

第1章のまとめ

ここまでの内容を表にまとめました。

学習タイプ	先生（正解）の有無	例えるなら？	主な目的
教師あり学習	あり	問題集と解答で勉強	将来の予測・分類
教師なし学習	なし	似たもの同士を分ける	データの整理・グループ化
半教師あり学習	一部だけあり	少ないヒントで全体を推測	効率的な精度の向上

どの学習方法も、AIの世界では欠かせない役割を担っています。あなたが今解こうとしている問題は、どのタイプに当てはまりそうですか？

今後の学習指針

第1章、お疲れ様でした！学習の全体像がつかめたところで、次は「どうやって似ているものを判断するのか」という具体的な計算の世界へ進みましょう。

第2章：データの近さを測ろう！AIが「似ている」と判断する定規の正体

第1章では、AIの学習スタイルには「先生がいるタイプ」や「自習するタイプ」があることを学びましたね。では、AIはどうやって「これはリンゴだ！」「これはゴリラだ！」と見分けているのでしょうか？

実は、AIはデータを「空間上の点」として捉えています。そして、点と点のあいだの「距離」を計算して、近いものを仲間だと判断しているのです。

今回は、その「距離」を測るための4つの代表的な定規（アルゴリズム）を紹介します。数学の記号も登場しますが、英語のラベルを使ってシンプルに整理していきましょう！

1. ユークリッド距離（Euclidean Distance）

まずは、私たちが一番慣れ親しんでいる「普通の定規」です。

仕組みを高校生向けに解説

2つの点を真っ直ぐ結んだ、いわゆる「直線距離」のことです。

例えば、あなたが地図の上で地点 A から地点 B まで定規を当てて測る長さ、それがユークリッド距離です。

数式では、2つの地点の差を2乗して足し合わせ、最後にルート（平方根）をとります。

Distance $=$ $\sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}$

メリットとデメリット

メリット：直感的に理解しやすく、最も一般的に使われる。
デメリット：データの「項目の単位」に影響を受けやすい。例えば、身長180cmと体重70kgをそのまま混ぜて計算すると、数字が大きい方の影響を強く受けてしまいます。

2. マンハッタン距離（Manhattan Distance）

次に紹介するのは、ちょっと変わった測り方です。

仕組みを高校生向けに解説

ニューヨークのマンハッタンのような碁盤の目の街を想像してください。ビルを突き抜けて斜めに進むことはできませんよね？必ず道路に沿ってカクカクと進む必要があります。

この「縦の移動距離 $+$ 横の移動距離」の合計がマンハッタン距離です。

Distance $=$ $|x_1 - x_2| + |y_1 - y_2|$

メリットとデメリット

メリット：計算が非常に単純で、ユークリッド距離よりも処理が速い。
デメリット：斜めの移動を考慮しないため、最短の直線距離を知りたいときには不向き。

3. マハラノビス距離（Mahalanobis Distance）

名前は少し難しいですが、とても頭の良い測り方です。

仕組みを高校生向けに解説

例えば、100点満点のテストで「80点」を取ったとします。平均点が50点のテストでの80点と、平均点が78点のテストでの80点では、その価値（データの重み）が違いますよね？

マハラノビス距離は、データの「ばらつき」を考慮して測る距離です。データが密集している方向か、スカスカな方向かを見極めて距離を調整してくれます。

Distance $=$ $\sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)}$

※ここでは $\mu$ は平均、 $\Sigma$ はデータの散らばり具合を表す記号だと考えてください。

メリットとデメリット

メリット：データの単位の違いや、項目間の関係性を自動で調整してくれる。
デメリット：計算が複雑で、事前のデータ分布を知っておく必要がある。

4. コサイン類似度（Cosine Similarity）

最後は、データの大きさではなく「向き」に注目する測り方です。

仕組みを高校生向けに解説

これは「角度」で似ているかどうかを判定します。

例えば、好きな食べ物のアンケートで「カレーが好き」と答えた人が2人いるとします。1人は毎日3食食べる熱狂的なファン、もう1人は週に1回食べる普通の人。

ユークリッド距離だと「食べる量」が違うので遠いと判定されますが、コサイン類似度なら「カレー好きという方向性は同じだね！」と判断してくれます。

Similarity $=$ $\frac{A \cdot B}{||A|| ||B||}$

メリットとデメリット

メリット：文章データの比較（単語の出現傾向など）に非常に強い。
デメリット：データの「量（大きさ）」の違いを無視してしまうため、量が重要な場合には使えない。

距離の使い分けまとめ

どの定規を使うべきか、悩んだときはこの表を参考にしてください。

距離の名前	特徴	よく使われる場面
ユークリッド距離	まっすぐな直線距離	一般的なクラスタリング
マンハッタン距離	カクカクした移動距離	高次元（項目が多い）データ
マハラノビス距離	ばらつきを考慮	異常検知（外れ値探し）
コサイン類似度	向き・角度を重視	文章の類似度、おすすめ機能

第2章のまとめと今後の学習指針

お疲れ様でした！「距離」と聞くと難しそうですが、要は「似ているかどうかをどうやって数値にするか」というルールの違いなんです。

さて、ここまでの学習で「学習の種類」と「距離の測り方」をマスターしました。次はいよいよ、これらの知識を使って実際にデータを分類するアルゴリズム「k近傍法」と、それを高速化するテクニックについて学びます。

大量のデータの中から「一番近い仲間」をどうやって効率よく見つけ出すのか、その秘密に迫ります。

第3章：効率的に仲間を探そう！k近傍法と探索のスピードアップ術

第2章では、データ同士の「距離」を測るための色々な定規を学びましたね。では、その定規を使って、実際にAIはどうやって未知のデータの正体を突き止めるのでしょうか？

いよいよ本編の最終章です！ここでは、シンプルだけど強力な分類アルゴリズムである「k近傍法」と、膨大なデータの中から一瞬で仲間を見つけ出すための「高速化の工夫」について解説します。

1. k近傍法（k-Nearest Neighbor / k-NN）

まずは、直感的で分かりやすい「k近傍法」の仕組みをマスターしましょう。

仕組みを高校生向けに解説

「類は友を呼ぶ」ということわざを知っていますか？k近傍法はまさにそれを利用したアルゴリズムです。

新しいデータ（クエリ）がやってきたとき、その周りにいる「近いもの」を $k$ 個選びます。もし $k = 3$ で、周りの3つのうち2つが「リンゴ」、1つが「梨」だったら、多数決で「この新しいデータはリンゴだ！」と判定します。

このとき選ぶ $k$ の数によって、判定結果が変わることがあるのが面白いポイントです。

メリットとデメリット

メリット：仕組みが単純で、どんな複雑な境界線を持つデータでも分類できる。
デメリット：新しいデータが来るたびに全ての既存データとの距離を計算するため、データ量が増えると非常に時間がかかる。

2. kd-tree（k-dimensional tree）

「データが多すぎて計算が終わらない！」という問題を解決するのが、この「kd-tree」です。

仕組みを高校生向けに解説

全てのデータと距離を測るのが大変なら、あらかじめ「地図」を作っておけばいいですよね？

kd-treeは、空間を箱分けしていくイメージです。

まず、データを縦の線で真っ二つに分けます。次に、分けられたそれぞれのエリアを今度は横の線で分けます。これを繰り返すと、データが細かな箱の中に整理されます。

新しいデータが来たときは、自分がどの箱に属しているかを確認するだけで、遠くにいる無関係なデータを無視して、近くの仲間だけを効率よく探せるようになります。

3. 近似最近傍探索（Approximate Nearest Neighbor）

最後は、スピードを極限まで追求した「近似」のテクニックです。

仕組みを高校生向けに解説

「100点満点の正解（一番近いもの）を見つけるのに1時間かかるなら、99点の正解（だいたい近いもの）を0.1秒で見つける方が嬉しい」という考え方です。

厳密に一番近いものを探すのではなく、ハッシュ関数を使ったりグラフ構造を利用したりして、計算を大幅にショートカットします。私たちが普段使っている画像検索やおすすめ機能の裏側では、この「だいたい合っているものを爆速で出す」技術が活躍しているんですよ！

探索手法の比較まとめ

それぞれの探索方法の違いを整理しておきましょう。

手法名	探し方のスタイル	特徴
全探索	全員と総当たり	正確だけど、データが多いと遅い
kd-tree	空間を仕切って探す	効率的だけど、項目数が多すぎると苦手
近似最近傍	だいたい近いものを探す	多少の誤差は許すが、圧倒的に速い

まとめと今後の学習指針

全3章、本当にお疲れ様でした！

これまでの内容を振り返ってみましょう。

第1章：AIの学び方（教師あり・なし・半教師あり）を理解しました。
第2章：似ている度合いを測る「距離」の数式を学びました。
第3章：距離を使って分類する「k近傍法」と、そのスピードを上げる「探索の工夫」を学びました。

これで、E資格における「機械学習の基礎」の土台はバッチリです！

次のステップへのアドバイス

次はいよいよ、今回学んだ「距離」の概念をさらに発展させた「線形回帰」や「ロジスティック回帰」、あるいは「ニューラルネットワーク」の学習へと進んでみてください。