欠損値の発生原因とデータ分析における適切な対処方法

こんにちは。ゆうせいです。

データ分析を行う過程で、取得したデータの一部が欠けている場面に遭遇することがあります。データが存在しない部分を欠損値と呼びます。欠損値が含まれたまま分析を進めると、結果に歪みが生じる可能性があります。本記事では、欠損値が発生するメカニズムと、欠損値に対する具体的な対処方法を解説します。

欠損値の発生メカニズムとその分類

欠損値の発生原因は、主に3つのパターンに分類されます。発生メカニズムを理解することは、適切な対処方法を選択するうえで不可欠です。

完全にランダムな欠損(MCAR)

MCAR(Missing Completely At Random)は、データが欠損する確率が、他のどのデータにも依存せず、完全に無作為に発生している状態を指します。

MCARを学校のテストに例えると、解答用紙の印刷ミスによって一部の生徒の特定の問題が見えなくなっており、その問題に解答できなかった状態に相当します。生徒の学力や問題の難易度とは無関係に欠損が発生しています。

ランダムな欠損(MAR)

MAR(Missing At Random)は、欠損の発生確率が、観測されている他のデータに依存している状態です。

例えば、体重のアンケート調査を行った際、女性の回答者が男性の回答者よりも体重の記入を避ける傾向がある場合がMARに該当します。アンケートにおいて、体重データが欠損する確率は性別という別の観測データに依存していますが、体重そのものの重さには依存していません。

ランダムではない欠損(MNAR)

MNAR(Missing Not At Random)は、欠損の発生確率が、欠損しているデータそのものの値に依存している状態です。

アンケート調査において、所得が著しく高い人や低い人が自身の所得を隠すために未回答とする場合がMNARに該当します。欠損している所得の値そのものが原因で欠損が発生しているため、対処が最も困難なケースです。

欠損値に対する具体的な対処方法

欠損値への対処方法には、大きく分けて削除法と代入法が存在します。それぞれの方法における事実としてのメリットとデメリットを整理します。

削除法(リストワイズ削除)

欠損値を含む行(サンプル)をデータセットから完全に取り除く方法です。

メリット:

処理が非常に単純であり、統計ソフトウェアなどで特別な設定を行わずに実行可能です。MCARの条件下では、分析結果に偏りが生じません。

デメリット:

貴重なデータそのものを失うことになります。データ数が少ない場合や、欠損値の割合が高い場合には、分析の精度が低下します。また、MARやMNARの条件下で削除法を使用すると、特定の傾向を持つデータが排除されるため、分析結果に偏りをもたらします。

代表値による代入法

欠損している箇所に、その変数の代表値(平均値、中央値、最頻値など)を埋め合わせる方法です。

平均値を計算する際の基本的な方程式は以下のようになります。

\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i}

上記において、nは観測されたデータの数、xはそれぞれのデータの値を表します。

メリット:

削除法と異なり、データ数を減らさずに分析を続行可能です。計算が単純であるため、処理の負荷が低く抑えられます。

デメリット:

すべての欠損値に同じ値が代入されるため、データの分散(ばらつき)が本来よりも小さく見積もられます。また、変数間の相関関係を歪める原因となります。

回帰代入法

他の観測されている変数を利用して回帰モデルを構築し、欠損値を予測して代入する方法です。

メリット:

代表値代入法と比較して、変数間の関係性を維持したまま欠損値を補完できます。回帰代入法を用いることで、よりデータ本来の性質に近い状態を再現可能です。

デメリット:

計算プロセスが複雑になります。予測された値が直線上に並ぶため、データに人為的な関係性が付加されてしまい、予測の不確実性が過小評価される傾向があります。

まとめ

欠損値への対処は、データ分析の信頼性を確保するための重要な工程です。学習を進めるにあたっては、以下のステップを踏むことを推奨します。

  1. 手元のデータセットにおいて、どの箇所にどの程度の欠損値が存在するかを確認する。
  2. データの収集背景から、欠損が発生したメカニズム(MCAR、MAR、MNAR)を論理的に推定する。
  3. 欠損のメカニズムとデータの性質に基づき、削除法や代入法などから最も適した対処方法を選択し、実行する。

上記の3つの手順を順守することで、客観的で正確なデータ分析の基礎を身につけることができます。

2.2 G検定への招待 AIリテラシー向上研修

キーワード:人工知能の歴史、機械学習、ディープラーニング、ビジネス活用

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。