ビジネスデータ分析の基礎
この記事では、ビジネスに活用するデータ分析ということで確率・統計を解説しています。Excelを使った操作も解説の予定です。
クイズ:
正解
1.データ分析と確率・統計
(1)ビジネスデータ分析の目的
クイズ: ビジネスデータ分析の主な目的は何ですか?
選択肢:
A. 社内のコミュニケーション改善
B. パフォーマンスの評価と最適化
C. 従業員の勤務時間の管理
正解
正解: 2. パフォーマンスの評価と最適化
ビジネスデータ分析は、組織がより効果的に意思決定を行い、競争力を高めるために不可欠なプロセスです。この分析は、過去のパフォーマンスを理解し、未来のトレンドを予測し、ビジネス戦略を最適化するのに役立ちます。ビジネスデータ分析の主な目的は以下の5点です。
パフォーマンスの評価と最適化
ビジネスデータ分析の最も基本的な目的は、企業のパフォーマンスを評価し、プロセス、製品、またはサービスを最適化する方法を特定することです。データを活用して、売上高、顧客満足度、オペレーションの効率性など、様々なパフォーマンス指標を分析し、改善の余地を見つけ出します。
意思決定のサポート
データ駆動型の意思決定は、直感や経験だけに頼るよりも、はるかに効果的です。データ分析を通じて、経営陣はリスクを評価し、機会を特定し、戦略的な決定を下すための客観的な根拠を得ることができます。これにより、リソースの配分、マーケティング戦略、製品開発などの分野でより良い決定が可能になります。
トレンドとパターンの特定
市場や顧客の行動におけるトレンドとパターンを特定することは、ビジネスが競合他社の一歩先を行くのに役立ちます。データ分析を用いて、需要の変動、顧客の好みの変化、新しい市場機会などを予測し、それに応じた戦略を立てることができます。
リスク管理と予測
ビジネスは不確実性と常に隣り合わせです。データ分析により、潜在的なリスクを予測し、その影響を最小限に抑えるための戦略を立てることが可能になります。これには、金融リスク、サプライチェーンの中断、市場の変動などが含まれます。
顧客理解の深化
最終的に、ビジネスデータ分析は、企業が顧客をより深く理解し、彼らのニーズに応える製品やサービスを提供するのに役立ちます。データを分析することで、顧客の購買行動、好み、フィードバックなどを詳細に把握し、顧客満足度を高めることができます。
ビジネスデータ分析は、これらの目的を達成するための強力なツールであり、組織がデータを戦略的な資産として利用することを可能にします。効果的なデータ分析プロセスにより企業はパフォーマンスを向上させ、競争優位性を獲得し、持続可能な成長を達成することができるでしょう。
(2)なぜ、確率・統計は必要なのか?
日常業務におけるデータ集計作業は、表面的には簡単なタスクに見えるかもしれませんが、その背後には、データから実際に意味ある洞察を引き出すという、非常に重要なプロセスが存在します。例えば、顧客の購買データの分析や、月間のウェブサイト訪問者数の集計など、単純な数字の足し算や平均の算出を超えた深い分析が求められます。これらの分析作業は、多くの場合、専門的な統計的知識を必要とせず、基本的な数値処理が中心となりがちです。
たとえば、特定の商品に関する顧客フィードバックを200件収集し、顧客満足度を把握することを考えます。「非常に満足」と回答した顧客の数を単純にカウントすることで、その商品の満足度が計算できます。もし160人が「非常に満足」と答えた場合、満足度は80%となります。同じく、あるカフェのコーヒー販売データを分析したところ、1日平均で販売されるコーヒーの数が70杯であることが判明しました。ピーク時には120杯を販売し、閑散期には最低でも30杯は売れる日もあることから、これらの数字は過去のビジネスパフォーマンスを把握するための基本的なデータ集計の例です。
しかし、これらのシンプルなケースを超えて、より複雑な統計的分析が必要な状況もあります。先に挙げた商品の顧客フィードバックの例で、昨年は200件のフィードバックのうち160件が「非常に満足」という結果だったとします。今年、その数が170件に増加した場合、実際に商品の満足度が向上したと言えるのか、あるいはこの10件の増加は単なる統計上の偶然なのかを検証する必要があります。また、カフェのコーヒー販売データについても、1日平均70杯の販売に基づいて翌日の準備量を計画するのは合理的ですが、それが本当に最適な判断なのかを確かめるためには、需要の変動や予測ミスによる損失を最小化するためのより高度な統計モデルの適用が求められます。
統計は、数字を単に集めてカウントする以上の価値を提供します。それは、集められたデータに深みを与え、そのデータが何を示しているのかを解釈し、将来の予測を立てる能力を備えています。従来のデータ分析作業が数字の集計に焦点を当てていたのに対し、統計学はその数値が示す背景や動向を読み解き、より戦略的な意思決定を支援します。
このように統計学は、ビジネスのあらゆる面で重要な役割を担っており、単なる数値集計を超えた価値を企業にもたらすのです。
(3)データ分析の手法
データ分析はビジネスや研究において重要な役割を果たしています。主に「現状の把握」と「未来の検証や予測」の二つの大きな機能に分類できます。これらの機能にはさまざまな手法があり、それぞれの目的に応じて使い分けられます。以下で、これらの機能と手法について詳しく解説します。
現状把握のためのデータ分析
現状を把握するためには、まずデータの集計が必要になります。これには主に二種類のデータが関わります。一つ目は数値を扱う量的データの集計で、例えば売上高や顧客訪問回数などの数値データを指します。もう一つは質的データ(カテゴリーデータ)の集計で、顧客の属性(年齢層や性別)、商品の種類、アンケートの選択肢(満足・不満足など)といったものがこれにあたります。これらの集計方法は記述統計と呼ばれ、データの特徴を要約し、現状を明確にするために用いられます。
未来の検証や予測
検証や予測を行うためのデータ分析では、推測統計が中心となります。この分野では主に三つの手法があります。
1. 検定
異なる集団間で収集したデータに基づいて、例えば新商品と既存商品の売上高を比較し、その平均値に統計的に有意な差が存在するかを検証します。この手法は、単に平均値や比率に差があることを示すだけでなく、その差が偶然によるものではないことを確かめるために用いられます。検定は、マーケティングキャンペーンの効果分析や顧客満足度調査など、多岐にわたる領域で活用されています。
2. 相関分析
相関分析は、二つの変数間の関係を探る手法です。例えば、広告投資額と売上高の関係や、顧客満足度と再購入率との間にどのような関連があるかを調べます。この分析を通じて、ビジネス上の重要な因果関係や相関関係を発見することができます。
3. 多変量解析
多変量解析は、より複雑なデータ関係を解析するために用いられる手法群です。これには、消費者の購買行動を予測する回帰分析、顧客を似た特徴ごとにグループ分けするクラスター分析、重要な変数を抽出するための因子分析、データから決定ルールを導き出す決定木などがあります。これらの手法は、顧客セグメンテーション、リスク管理、商品開発など、様々なビジネスプロセスの最適化に貢献しています。
データ分析のこれらの手法は、単に現状を把握するだけでなく、将来のビジネス戦略を立てる上での重要な基盤を提供します。統計学の原理と解析技術を駆使することで、より効率的かつ効果的な意思決定が可能になり、ビジネスの成長を加速させることができます。
(4)データ分析の流れ
データ分析のプロセスは、
- データの収集と整理
- データの集約と分析
- 分析結果の解釈と意思決定
というステップを踏むことになります。この流れを適切に管理することで、ビジネスにおける意思決定の精度を高めることができます。しかし、単に利用可能なデータがあるからといって分析を実施しても、有益な洞察や結果を得られるとは限りません。目的に基づいて、分析に必要なデータを慎重に選定し収集することが、成功への鍵を握ります。アウトプットの質は、使用するデータの質に大きく依存するため、目的に応じた適切なデータ選択が不可欠です。
例を挙げると、「製品の新機能を市場に投入するタイミングを決定したい」というビジネス目的があるとします。この場合、市場のトレンド、競合の動向、顧客の需要変動などが影響する可能性があります。従って、過去2年間の同様の製品の月別売上高、マーケットシェア、顧客からのフィードバックデータ、競合製品の発売時期や市場反応などのデータを集めることになります。
分析では、新機能の市場投入時期を決めるために、これらの変数間の関係性を探り、特に売上高とマーケットシェアの変動パターンを深堀りします。たとえば、X=市場のニーズやトレンドの指標、Y=売上高とマーケットシェアの増減として、これらの因子の相関関係を分析することが考えられます。ここで重要なのは、過去のデータに基づいて未来を予測する際の傾向と、その傾向が新機能の投入タイミングにどう影響するかを理解することです。
このように、目的を明確に設定し、それに基づいたデータを選定して分析を行うことで、単なるデータの集計を超えた、戦略的な意思決定を支援する洞察を得ることができます。結果的に、データ分析はビジネスにおけるリスクの軽減、機会の最大化、そして競争優位性の確保に直結する重要なプロセスとなるのです。
(5)分析データの種類
クイズ: 以下のうち、カテゴリデータに該当する例はどれですか?
選択肢:
A. 市の人口
B. 自動車のブランド
C. 年収
正解
正解: B. 自動車のブランド
解説:
カテゴリデータは、数値ではなく、項目やグループによってデータを分類するときに用いられます。自動車のブランド(例: トヨタ、ホンダ、テスラ)のように、データが特定のカテゴリーやグループに属している場合にカテゴリデータとなります。これは数値ではなく、テキストやラベルで表されます。一方、市の人口や年収のようなデータは数値で表され、量的な情報を提供するため、数値データに該当します。数値データは数学的な操作や計算が可能なデータです。
データ分析の世界に足を踏み入れると、私たちは主に2種類のデータに出会います。理解しやすくするために、これらのデータを日常生活から引き出された例を用いて説明しましょう。
数値データ
まず、第一のタイプは数値データです。数値データは、1、2、3といった数値で表され、私たちの日常で頻繁に遭遇します。たとえば、お財布に入っているお金の総額、部屋の長さや重さを計る時、または友人との待ち合わせ時間の計画などです。さらに、アンケート調査でよく見る5段階評価(たとえば、全く満足しないから非常に満足するまで)も、数値データの一例です。これらのデータは、足したり引いたりすることで総和や差を出すことができるだけでなく、平均値を計算して全体の傾向を見たり、標準偏差を求めてデータがどの程度バラついているかを把握することも可能です。
カテゴリーデータ
第二のタイプは、性別や血液型、あるいは商品のバーコードのように、特定のカテゴリーに分類されるデータです。これらは、具体的な数値による量を表すのではなく、属性や性質を表します。例えば、「男性」や「女性」というカテゴリーや、「A型」、「B型」といった血液型です。商品のバーコードも、それぞれが異なる商品を識別するための一意のコードとして機能し、カテゴリーデータの一例となります。また、郵便番号や電話番号も数字の並びで表されますが、これらは単なる数値ではなく、特定の住所や電話回線を指し示すユニークな識別子として機能します。これらのデータは、それぞれが属するカテゴリーごとに数え上げることで、どのカテゴリーがどれだけ存在するかを知ることが基本的な分析方法となります。
これらの違いを理解することで、データをより深く掘り下げ、有意義な洞察を得るための第一歩を踏み出すことができます。数値データには計算を用いてより詳細な分析が可能であり、カテゴリーデータではデータの分布や傾向を把握することができます。これらの基本的な違いを抑えることで、データ分析の世界が一段と理解しやすくなるでしょう。
2.数量データの基礎集計
(1)代表値(平均,中央値,最頻値)
代表値とは、データの中心的な傾向や典型的な値を示す統計量のことを指します。代表値には、主に以下の3つがあります。
- 平均値 (Mean)
- 中央値 (Median)
- 最頻値 (Mode)
1. 平均値 (Mean)
定義: データの総和をデータの個数で割った値です。
計算方法: 全てのデータの値を合計し、その合計をデータの個数で割ります。
例: データが 3,5,7,9,113, 5, 7, 9, 113,5,7,9,11 の場合、 平均値=3+5+7+9+115=355=7\text{平均値} = \frac{3 + 5 + 7 + 9 + 11}{5} = \frac{35}{5} = 7平均値=53+5+7+9+11=535=7
特徴:
- 全データの影響を受けやすく、外れ値(極端に大きい値や小さい値)によって変動しやすいです。
2. 中央値 (Median)
定義: データを小さい順または大きい順に並べたとき、ちょうど中央に位置する値です。
計算方法: データを昇順または降順に並べ替え、その中央の値を取ります。データの個数が偶数の場合、中央の2つの値の平均を取ります。
例: データが 3,5,7,9,113, 5, 7, 9, 113,5,7,9,11 の場合、
- 並べ替え後: 3,5,7,9,113, 5, 7, 9, 113,5,7,9,11
- 中央値は 7
データが 3,5,7,93, 5, 7, 93,5,7,9 の場合、
- 並べ替え後: 3,5,7,93, 5, 7, 93,5,7,9
- 中央の2つの値は 5 と 7 なので、その平均を取ります。 中央値=5+72=6\text{中央値} = \frac{5 + 7}{2} = 6中央値=25+7=6
特徴:
- 外れ値の影響を受けにくく、データの中心をより適切に表すことができます。
3. 最頻値 (Mode)
定義: データの中で最も頻繁に現れる値です。
計算方法: 各データの出現回数を数え、その中で最も多く現れる値を取ります。
例: データが 3,5,7,7,9,113, 5, 7, 7, 9, 113,5,7,7,9,11 の場合、
- 7 が最も多く現れるので、最頻値は 7
データが 3,5,7,9,113, 5, 7, 9, 113,5,7,9,11 の場合、
- 全ての値が一度しか現れないので、最頻値は存在しない(または全てが最頻値)。
特徴:
- データの山(モード)を示し、データの分布の特徴を表すのに有効です。データが多峰性の場合、複数の最頻値を持つことがあります。
まとめ
- 平均値はデータ全体の傾向を表しますが、外れ値の影響を受けやすいです。
- 中央値はデータの中心を表し、外れ値の影響を受けにくいです。
- 最頻値はデータの中で最もよく現れる値を示し、データの分布の特徴を捉えるのに役立ちます。
これらの代表値を組み合わせて使用することで、データの全体的な傾向や分布をよりよく理解することができます。
(2)ばらつきの指標 標準偏差
標準偏差とは?
標準偏差 (Standard Deviation) は、データが平均からどの程度散らばっているか、つまりばらつきを示す指標です。標準偏差が小さいほど、データが平均値に近いところに集中しており、標準偏差が大きいほど、データが平均値から遠くに散らばっていることを意味します。
標準偏差の計算方法
標準偏差の計算は以下の手順で行います。
- 平均値 (Mean) を計算する。
- 各データと平均値の差を求める。
- 差の二乗を計算する。
- 二乗した値の平均を求める(これを分散という)。
- 分散の平方根を取る。
計算例
データセット:3,5,7,9,113, 5, 7, 9, 113,5,7,9,11
- 平均値の計算: 平均値=3+5+7+9+115=7\text{平均値} = \frac{3 + 5 + 7 + 9 + 11}{5} = 7平均値=53+5+7+9+11=7
- 各データと平均値の差: (3−7),(5−7),(7−7),(9−7),(11−7)(3-7), (5-7), (7-7), (9-7), (11-7)(3−7),(5−7),(7−7),(9−7),(11−7) −4,−2,0,2,4-4, -2, 0, 2, 4−4,−2,0,2,4
- 差の二乗: (−4)2,(−2)2,02,22,42(-4)^2, (-2)^2, 0^2, 2^2, 4^2(−4)2,(−2)2,02,22,42 16,4,0,4,1616, 4, 0, 4, 1616,4,0,4,16
- 二乗した値の平均(分散): 分散=16+4+0+4+165=405=8\text{分散} = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8分散=516+4+0+4+16=540=8
- 分散の平方根(標準偏差): 標準偏差=8≈2.83\text{標準偏差} = \sqrt{8} \approx 2.83標準偏差=8≈2.83
標準偏差の特徴
- 単位: 元のデータと同じ単位で表されます。これにより、ばらつきの程度を直感的に理解しやすくなります。
- 分布の形状: データが正規分布に従う場合、標準偏差は分布の広がりを示します。例えば、正規分布においてデータの約68%が平均値から±1標準偏差の範囲内に収まります。
- 外れ値の影響: 標準偏差は外れ値の影響を受けやすいため、データに外れ値がある場合は注意が必要です。
実際の利用例
- 品質管理: 工業製品の品質管理において、製品の寸法や重量などが規格値からどの程度ばらついているかを評価するのに使われます。
- リスク評価: 金融において、投資のリスクを評価するために標準偏差が使われます。リターンの標準偏差が大きいほど、投資のリスクが高いことを意味します。
- データ分析: 科学や社会科学の研究において、データのばらつきを評価するために標準偏差が広く使われます。
まとめ
標準偏差は、データのばらつきを定量的に示す重要な指標です。データの平均からの散らばり具合を理解することで、データの特性や傾向をより深く把握することができます。
(3)数量データの分析
(4)母集団と標本
(5)箱ひげ図
(6)度数分布・ヒストグラム
(7)データの基準化と偏差値
3.カテゴリーデータの基礎集計
(1)カテゴリーデータの集計
(2)ピボットテーブルの基本操作
Excelでピボットテーブルを作成する手順について、詳細に解説します。
ピボットテーブルの作成手順(Excelの場合)
1. データの準備
ピボットテーブルを作成するためのデータが適切に整理されていることを確認します。データは表形式で、各列に明確なヘッダーが必要です。
例: 売上データ
日付 | 商品 | 売上 | 地域 |
---|---|---|---|
2024-01-01 | 商品A | 1000 | 東京 |
2024-01-01 | 商品B | 1500 | 大阪 |
2024-01-02 | 商品A | 2000 | 東京 |
2024-01-02 | 商品B | 2500 | 大阪 |
2. データ範囲の選択
ピボットテーブルを作成したいデータ範囲を選択します。データ全体を選択することを忘れないようにしましょう。
3. ピボットテーブルの挿入
- 「挿入」タブをクリックします。
- 「ピボットテーブル」を選択します。
- 「ピボットテーブルの作成」ダイアログが表示されます。
4. ピボットテーブルの配置場所を選択
- データ範囲が正しく選択されていることを確認します。
- ピボットテーブルを配置する場所を選択します。新しいワークシートまたは既存のワークシートのいずれかを選びます。
- 「OK」をクリックします。
5. ピボットテーブルの構成
ピボットテーブルを挿入すると、右側に「ピボットテーブル フィールド」ウィンドウが表示されます。このウィンドウで、データフィールドをドラッグアンドドロップしてピボットテーブルを構成します。
- 行(Rows):
- 行ラベルとして使用するフィールドをドラッグします。
- 例: 「商品」を行にドラッグ
- 列(Columns):
- 列ラベルとして使用するフィールドをドラッグします。
- 例: 「日付」を列にドラッグ
- 値(Values):
- 集計するフィールドをドラッグします。通常、数値フィールドがここに配置されます。
- 例: 「売上」を値にドラッグ
- デフォルトでは、売上の合計(Sum)が表示されます。必要に応じて、他の集計方法(平均、カウントなど)を選択できます。
- フィルター(Filters):
- ピボットテーブルのデータをフィルタリングするためのフィールドをドラッグします。
- 例: 「地域」をフィルターにドラッグ(必要に応じて)
6. ピボットテーブルの結果
フィールドを適切に配置すると、ピボットテーブルが自動的に生成されます。先ほどの例に基づくと、以下のようなピボットテーブルが作成されます。
例:
商品 | 2024-01-01 | 2024-01-02 |
---|---|---|
商品A | 1000 | 2000 |
商品B | 1500 | 2500 |
まとめ
ピボットテーブルは、データを迅速かつ柔軟に集計・分析するための非常に便利なツールです。Excelでの基本的な操作手順を理解し、実践することで、データから有益な情報を引き出すことができるようになります。
(3)単純集計とクロス集計の演習
(4)単純集計とグラフ
(5)母比率の推定
(6)クロス集計のポイント
4.確率分布
(1)確率分布とは(ビジネスでの用途)
(2)ポアソン分布
![ビジネスデータ分析の基礎 -](https://saycon.co.jp/wordpress/wp-content/uploads/2024/07/image-12-1024x772.png)
(3)正規分布
![ビジネスデータ分析の基礎 -](https://saycon.co.jp/wordpress/wp-content/uploads/2024/07/image-11-1024x656.png)
(4)二項分布
![ビジネスデータ分析の基礎 -](https://saycon.co.jp/wordpress/wp-content/uploads/2024/07/image-13-1024x772.png)
5.有意差の検定
(1)母平均の有意差検定
母平均の有意差検定は、ある母集団の平均が特定の値と異なるかどうかを検証するための統計的手法です。具体的には、次の手順で行われます。
手順
- 帰無仮説と対立仮説の設定:
- 帰無仮説 (H₀): 母平均 μ は特定の値 μ₀ と等しい。
- 対立仮説 (H₁): 母平均 μ は特定の値 μ₀ と異なる(片側検定の場合は「大きい」または「小さい」と異なる)。
- 検定統計量の計算:
- 標本平均 (\bar{x})、標本の標準偏差 s、標本サイズ n を用いて、t値またはz値を計算します。母標準偏差が分かっている場合はz検定、分からない場合はt検定を使用します。
- z値の計算:
[
z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}
] - t値の計算:
[
t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}
]
- 臨界値の決定:
- 選択した有意水準(通常は5%や1%)に基づいて、標準正規分布またはt分布から臨界値を求めます。
- p値の計算:
- 計算した検定統計量に基づいて、p値を求めます。p値は、帰無仮説が真であると仮定した場合に、観測されたデータがどれだけ極端であるかを示します。
- 結論:
- p値が有意水準よりも小さい場合、帰無仮説を棄却します。つまり、母平均が特定の値と有意に異なると判断されます。
- p値が有意水準以上の場合、帰無仮説を棄却しません。つまり、母平均が特定の値と異なるとは言えないと判断されます。
具体例
ある新薬の効果を調べるために、患者に薬を投与し、症状の改善度を調査したとします。過去のデータでは、従来薬の平均改善度が50点でした。この新薬の平均改善度が従来薬と異なるかどうかを検証します。
- 帰無仮説:
[
H_0: \mu = 50
]
対立仮説:
[
H_1: \mu \neq 50
] - 標本データ: 新薬の標本平均 (\bar{x} = 55)、標本の標準偏差 (s = 10)、標本サイズ (n = 30)
- t値の計算:
[
t = \frac{55 - 50}{\frac{10}{\sqrt{30}}} = \frac{5}{1.83} \approx 2.73
] - 臨界値: 有意水準5%で自由度29のt分布の臨界値は約2.045
- 結論: 計算したt値 2.73 は臨界値 2.045 を超えているため、帰無仮説を棄却します。新薬の平均改善度は従来薬の50点と有意に異なると判断されます。
このように、有意差検定を用いることで、母平均が特定の値と異なるかどうかを統計的に検証することができます。
(2)t検定
T検定(t-test)は、2つのグループの平均値の差が統計的に有意かどうかを検定するための統計手法です。特に、母集団の標準偏差が未知の場合やサンプルサイズが小さい場合に使用されます。以下に、t検定の主要な種類とその手順を説明します。
T検定の種類
- 1標本t検定:
- 1つの標本の平均値が既知の母平均と異なるかどうかを検定する。
- 2標本t検定(独立t検定):
- 2つの独立したグループの平均値が異なるかどうかを検定する。
- 対応のあるt検定(対応t検定):
- 同一グループの異なる時点での平均値の差を検定する(例: 介入前後の測定)。
1標本t検定の手順
- 帰無仮説と対立仮説の設定:
- 帰無仮説 (H₀): 標本の平均 μ は特定の値 μ₀ と等しい。
- 対立仮説 (H₁): 標本の平均 μ は特定の値 μ₀ と異なる(片側検定の場合は「大きい」または「小さい」と異なる)。
- 検定統計量の計算:
- 標本平均 (\bar{x})、標本の標準偏差 s、標本サイズ n を用いて、t値を計算します。
[
t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}
]
- 臨界値の決定:
- 選択した有意水準(通常は5%や1%)に基づいて、t分布から臨界値を求めます。
- p値の計算:
- 計算したt値に基づいて、p値を求めます。p値は、帰無仮説が真であると仮定した場合に、観測されたデータがどれだけ極端であるかを示します。
- 結論:
- p値が有意水準よりも小さい場合、帰無仮説を棄却します。つまり、標本平均が特定の値と有意に異なると判断されます。
- p値が有意水準以上の場合、帰無仮説を棄却しません。つまり、標本平均が特定の値と異なるとは言えないと判断されます。
具体例
例えば、新しいダイエットプログラムが体重に効果があるかどうかを調べるとします。10人の参加者のダイエット前後の体重を測定し、その差を分析します。
- 帰無仮説:
[
H_0: \text{ダイエットによる体重変化} = 0
]
対立仮説:
[
H_1: \text{ダイエットによる体重変化} \neq 0
] - 標本データ: 平均体重減少 (\bar{x} = 2.5 \text{kg})、標本の標準偏差 (s = 1.5 \text{kg})、標本サイズ (n = 10)
- t値の計算:
[
t = \frac{2.5 - 0}{\frac{1.5}{\sqrt{10}}} = \frac{2.5}{0.474} \approx 5.27
] - 臨界値: 有意水準5%で自由度9のt分布の臨界値は約2.262
- 結論: 計算したt値 5.27 は臨界値 2.262 を超えているため、帰無仮説を棄却します。ダイエットプログラムは体重減少に有意な効果があると判断されます。
このように、t検定を用いることで、2つのグループや異なる時点での平均値の差が統計的に有意かどうかを検証することができます。
(4)カイ二乗検定
カイ2乗検定(Chi-squared test)は、観察されたデータが期待される分布とどの程度一致するかを検定するための統計的手法です。主にカテゴリーデータの分析に用いられます。カイ2乗検定にはいくつかの種類がありますが、ここでは主に2種類の検定について説明します。
1. 適合度検定(Goodness of Fit Test)
適合度検定は、観察されたデータが特定の理論的な分布(例:均等分布)にどの程度適合しているかを調べるために使用されます。
手順
- 帰無仮説と対立仮説の設定:
- 帰無仮説 (H₀): 観察されたデータは期待される分布に従っている。
- 対立仮説 (H₁): 観察されたデータは期待される分布に従っていない。
- 観察度数と期待度数の計算:
- 観察度数 (O): 実際に観測された各カテゴリのデータ数。
- 期待度数 (E): 帰無仮説に基づいて予測される各カテゴリのデータ数。
- カイ2乗統計量の計算:
- カイ2乗統計量 (χ²) は次の式で計算されます。
[
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}
]
ここで、 (O_i) は観察度数、(E_i) は期待度数です。
- 自由度の計算:
- 自由度 (df) は、カテゴリの数 (k) から1を引いたものです。
[
df = k - 1
]
- 臨界値の決定とp値の計算:
- 選択した有意水準(通常は5%や1%)に基づいて、カイ2乗分布から臨界値を求めます。または、カイ2乗統計量に基づいてp値を計算します。
- 結論:
- 計算したカイ2乗統計量が臨界値を超えるか、p値が有意水準以下であれば、帰無仮説を棄却します。
2. 独立性の検定(Test of Independence)
独立性の検定は、2つのカテゴリ変数が互いに独立であるかどうかを調べるために使用されます。
手順
- 帰無仮説と対立仮説の設定:
- 帰無仮説 (H₀): 2つの変数は独立している。
- 対立仮説 (H₁): 2つの変数は独立していない。
- クロス集計表の作成:
- 各カテゴリの組み合わせの観察度数を表にまとめます。
- 期待度数の計算:
- 各セルの期待度数は次の式で計算されます。
[
E_{ij} = \frac{(行の合計) \times (列の合計)}{全体の合計}
]
- カイ2乗統計量の計算:
- カイ2乗統計量 (χ²) は次の式で計算されます。
[
\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
]
ここで、 (O_{ij}) は観察度数、 (E_{ij}) は期待度数です。
- 自由度の計算:
- 自由度 (df) は、行数 (r) から1を引いたものと列数 (c) から1を引いたものの積です。
[
df = (r - 1) \times (c - 1)
]
- 臨界値の決定とp値の計算:
- 選択した有意水準に基づいて、カイ2乗分布から臨界値を求めます。または、カイ2乗統計量に基づいてp値を計算します。
- 結論:
- 計算したカイ2乗統計量が臨界値を超えるか、p値が有意水準以下であれば、帰無仮説を棄却します。
具体例
適合度検定の例
あるサイコロが公平かどうかを調べるために、60回振った結果が次のようになったとします。1が12回、2が8回、3が10回、4が14回、5が9回、6が7回出ました。
- 帰無仮説:
[
H_0: \text{サイコロは公平である(各面が同じ確率で出る)}
] - 期待度数:
[
E = \frac{60}{6} = 10
] - カイ2乗統計量の計算:
[
\chi^2 = \frac{(12-10)^2}{10} + \frac{(8-10)^2}{10} + \frac{(10-10)^2}{10} + \frac{(14-10)^2}{10} + \frac{(9-10)^2}{10} + \frac{(7-10)^2}{10}
= \frac{4}{10} + \frac{4}{10} + 0 + \frac{16}{10} + \frac{1}{10} + \frac{9}{10}
= 3.4
] - 自由度:
[
df = 6 - 1 = 5
] - 結論:
- カイ2乗分布の表を用いて、自由度5で有意水準5%の臨界値は約11.07です。計算したカイ2乗統計量3.4は臨界値11.07より小さいため、帰無仮説を棄却しません。サイコロが公平であるという仮説を棄却できないと判断されます。
このように、カイ2乗検定はカテゴリーデータの分析において重要なツールです。