内挿は「既知のデータ範囲の内側」を予測すること、外挿は「既知のデータ範囲の外側」を予測すること

こんにちは。ゆうせいです。

機械学習における内挿(Interpolation)と外挿(Extrapolation)は、モデルが予測を行う際のデータの範囲に関係する重要な概念です。簡単に言うと、内挿は「既知のデータ範囲の内側」を予測すること、外挿は「既知のデータ範囲の外側」を予測することです。


内挿 (Interpolation) - 安全な予測 😌

内挿は、モデルが学習に使ったデータの範囲内で新しいデータポイントの値を予測することです。

例えば、ある家の価格を予測するモデルを考えてみましょう。学習に「50平方メートルから150平方メートルまで」の家のデータを使ったとします。このモデルを使って「100平方メートル」の家の価格を予測する場合、これは内挿になります。

特徴:

  • 信頼性が高い: モデルは既知のデータパターンに基づいて予測するため、一般的に精度が高く、信頼できます。
  • リスクが低い: 学習データに囲まれた範囲での予測なので、突拍子もない結果になる可能性は低いです。

例え:

テスト勉強で問題集の1ページから50ページまでを勉強したとします。テストでその範囲内の問題が出題されたら、自信を持って答えられますよね?これが内挿のイメージです。


外挿 (Extrapolation) - 危険な予測 😰

外挿は、モデルが学習に使ったデータの範囲を超えた未知の領域で予測を行うことです。

先ほどの家の価格予測モデルで、「200平方メートル」の家の価格を予測しようとする場合、これは外挿にあたります。モデルは150平方メートルまでのデータしか知らないため、それ以降の価格がどう変動するかは全くの未知数です。

特徴:

  • 信頼性が低い: 学習データがない範囲の予測なので、モデルは今ある知識から「たぶんこうなるだろう」と推測するしかありません。その結果、予測が大きく外れる危険性があります。
  • リスクが高い: 例えば、家の広さと価格が単純な比例関係にあるとは限りません。ある一定の広さを超えると、価格の上がり方が鈍化したり、逆に急上昇したりするかもしれません。モデルはそうした未知のパターンを考慮できないのです。

例え:

問題集の50ページまでしか勉強していないのに、テストで100ページの内容が出題されたら、推測で答えるしかありませんよね?正解するかもしれませんが、大きく間違う可能性の方が高いでしょう。これが外挿の危険性です。


まとめ:新人エンジニアとしての心構え

内挿 (Interpolation)外挿 (Extrapolation)
予測範囲学習データの範囲内学習データの範囲外
信頼性高い ✅低い ⚠️
リスク低い高い
過去1年間の売上データから来月の売上を予測過去のデータしかないのに5年後の売上を予測

新人エンジニアとして最も重要なのは、「自分が今やろうとしている予測が、内挿なのか外挿なのか」を常に意識することです。

特に外挿を行う場合は、「この予測は学習データ範囲外のものであり、信頼性が低い可能性がある」ということを明確に理解し、関係者に伝える責任があります。外挿が必要な場合は、なぜその予測が必要なのか、どのような仮定に基づいているのかを慎重に検討し、モデルの限界を理解した上で活用するようにしてください。

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。