クロス集計表
クロス集計表(クロス表、クロス集計、クロス集計表とも呼ばれます)は、2つ以上のカテゴリ変数(名義尺度や順序尺度)間の関係を示すために使用される表です。クロス集計表は、データを行と列に整理し、各カテゴリの組み合わせごとの頻度や割合を示します。
クロス集計表の構造
クロス集計表は、縦(行)と横(列)に各カテゴリ変数の値を配置し、セルにはそれぞれの組み合わせに該当するデータの頻度(出現回数)や割合が記載されます。
例えば、性別(男性、女性)と購買行動(購入する、購入しない)の関係を示すクロス集計表は次のようになります:
購入する | 購入しない | 合計 | |
---|---|---|---|
男性 | 50 | 30 | 80 |
女性 | 40 | 20 | 60 |
合計 | 90 | 50 | 140 |
クロス集計表の用途
クロス集計表は、次のような場面で広く利用されます。
- データの分布を把握する
- クロス集計表を用いることで、カテゴリ変数ごとのデータの分布を視覚的に確認することができます。例えば、上記の表から、男性と女性の購買行動の違いを一目で確認できます。
- 関係性の分析
- クロス集計表を使うことで、2つのカテゴリ変数の間にどのような関係があるかを分析することができます。たとえば、「性別」と「購買行動」に相関があるかどうかを判断する際に有用です。
- カイ二乗検定
- クロス集計表は、2つのカテゴリ変数が独立しているかどうかを検証するためのカイ二乗検定にも利用されます。カイ二乗検定では、観測された頻度が期待される頻度とどの程度異なるかを検証し、統計的な有意性を判断します。
クロス集計表の解釈
クロス集計表は、単に頻度を示すだけでなく、割合を計算して解釈することも重要です。例えば、次のように割合を計算することができます:
- 行の合計を基準にした割合:
- 例えば、男性のうち何%が「購入する」を選んだか。
- 割合=50/80=0.625(62.5%)
- 列の合計を基準にした割合:
- 例えば、「購入する」を選んだ人のうち、何%が男性か。
- 割合=50/90=0.556(55.6%)
- 全体を基準にした割合:
- 例えば、全体の中で「男性かつ購入する」割合はどのくらいか。
- 割合=50/140=0.357(35.7%)
クロス集計表のメリットとデメリット
メリット:
- 簡単にデータを整理し、2つ以上のカテゴリ変数間の関係を視覚的に理解できる。
- 比較的少量のデータでも有効に利用でき、簡潔にデータの傾向を把握できる。
デメリット:
- 大規模データや連続変数の分析には適していない。
- 変数間の因果関係を示すものではなく、相関を示すに過ぎない。
まとめ
クロス集計表は、2つ以上のカテゴリ変数間の関係を分析する際に非常に有用です。簡単な構造でありながら、データの分布や関係性を直感的に把握できるため、統計分析やデータ分析の初期段階で広く利用されます。適切な解釈と分析を行うことで、データから有益な洞察を得ることができます。