ビジネスデータ分析に使用するエクセルの統計関数
エクセルの統計関係の関数を以下にまとめました。
関数名 | 式 | 意味 | 引数の解説 |
---|---|---|---|
AVERAGE | =AVERAGE(A1:A10) | 範囲内の数値の平均を計算します。 | A1:A10 は平均を計算する範囲です。例:A1=10, A2=20, A3=30 の場合、結果は 20 になります。 |
MEDIAN | =MEDIAN(A1:A10) | 範囲内の中央値を返します。 | A1:A10 は中央値を求める範囲です。データを昇順に並べた時の中央の値を返します。 |
MODE.SNGL | =MODE.SNGL(A1:A10) | 範囲内で最も頻繁に出現する値を返します。 | A1:A10 は最頻値を求める範囲です。複数の最頻値がある場合は最小のものを返します。 |
STDEV.P | =STDEV.P(A1:A10) | 母集団全体の標準偏差を計算します。 | A1:A10 は標準偏差を計算する範囲です。母集団全体のデータがある場合に使用します。なお、Pは母集団【Population】のPです。以下同じ。 |
STDEV.S | =STDEV.S(A1:A10) | 標本の標準偏差を計算します。 | A1:A10 は標準偏差を計算する範囲です。母集団の一部のデータしかない場合に使用します。なお、Sはサンプル【Sample】のSです。以下同じ。 |
VAR.P | =VAR.P(A1:A10) | 母集団全体の分散を計算します。 | A1:A10 は分散を計算する範囲です。母集団全体のデータがある場合に使用します。 |
VAR.S | =VAR.S(A1:A10) | 標本の分散を計算します。 | A1:A10 は分散を計算する範囲です。母集団の一部のデータしかない場合に使用します。 |
CORREL | =CORREL(A1:A10, B1:B10) | 2つのデータセットの相関係数を計算します。 | A1:A10 と B1:B10 は相関を計算する2つのデータ範囲です。-1から1の間の値を返します。 |
FORECAST | =FORECAST(x, 範囲_y, 範囲_x) | 線形回帰を基に予測値を計算します。 | x は予測したいx値、範囲_y と範囲_x は既知のy値とx値の範囲です。 |
TREND | =TREND(範囲_y, 範囲_x, 新しい_x) | 線形トレンドに基づいて新しいy値を計算します。 | 範囲_y と範囲_x は既知のデータ、新しい_x は新しいy値を予測したいx値です。 |
LINEST | =LINEST(範囲_y, 範囲_x) | 線形回帰の統計情報を返します。 | 範囲_y と範囲_x は回帰分析を行うデータ範囲です。結果は配列で返されます。 |
GROWTH | =GROWTH(範囲_y, 範囲_x, 新しい_x) | 指数関数的なデータの予測を行います。 | 範囲_y と範囲_x は既知のデータ、新しい_x は新しいy値を予測したいx値です。 |
RSQ | =RSQ(A1:A10, B1:B10) | 2つのデータセットの決定係数(R二乗)を計算します。 | A1:A10 と B1:B10 は決定係数を計算する2つのデータ範囲です。0から1の間の値を返します。 |
F.TEST | =F.TEST(範囲1, 範囲2) | F検定の結果を返します。 | 範囲1 と範囲2 はF検定を行う2つのデータ範囲です。結果はp値です。 |
T.TEST | =T.TEST(範囲1, 範囲2, tails, type) | T検定の結果を返します。 | 範囲1 と範囲2 はt検定を行う2つのデータ範囲、tails は片側(1)か両側(2)か、type は検定の種類(1=対のデータ、 2=等分散、3=非等分散 )を指定します。 |
CHISQ.TEST | =CHISQ.TEST(観測範囲, 期待範囲) | カイ二乗検定の結果を返します。 | 観測範囲 は観測された値の範囲、期待範囲 は期待される値の範囲です。結果はp値です。 |
Z.TEST | =Z.TEST(範囲, x, [sigma]) | z検定の結果を返します。 | 範囲 はデータの範囲、x はテストする値、sigma は既知の標準偏差(省略可能)です。 |
SKEW | =SKEW(A1:A10) | 範囲内の値の歪度を計算します。 | A1:A10 は歪度を計算するデータ範囲です。正規分布からの偏りを示します。 |
KURT | =KURT(A1:A10) | 範囲内の値の尖度を計算します。 | A1:A10 は尖度を計算するデータ範囲です。分布の尖り具合を示します。 |
CONFIDENCE.NORM | =CONFIDENCE.NORM(alpha, 標準偏差, n) | 母平均の信頼区間を計算します。 | alpha は有意水準です。例えば95%信頼区間であれば0.05となります。標準偏差 は母集団の標準偏差、n はサンプルサイズです。なお、 NORM は「ノーマル(正規)」の略です。つまり、CONFIDENCE.NORM 関数は正規分布に基づいて信頼区間を計算します。 |
QUARTILE.EXC | =QUARTILE.EXC(array, quart) | データセットの指定した四分位数を計算します。 | array はデータ範囲、quart は1~3の値で四分位数を指定します。 |
用語の解説
母集団(Population)
母集団とは、ある研究や調査の対象となる全ての個体やデータの集合のことです。例えば:
- 企業の全社員:社員の満足度調査を行う場合、その企業の全社員が母集団です。
- 全国の全ての消費者:新製品の市場調査を行う場合、日本全国の全ての消費者が母集団です。
母集団の特徴:
- 非常に大きな集団であることが多いです。
- 母集団全てを調査するのは時間やコストの面で現実的ではないことが多いです。
標本(Sample)
標本とは、母集団から抽出された一部分の個体やデータの集合のことです。例えば:
- 企業の全社員の中から100人:社員の満足度調査を行う場合、全社員からランダムに選んだ100人が標本です。
- 全国の消費者の中から1000人:新製品の市場調査を行う場合、日本全国の消費者からランダムに選んだ1000人が標本です。
標本の特徴:
- 母集団全体を代表する小さな集団です。
- 調査や研究を効率的に行うために使用されます。
母集団と標本の関係
- 母集団から標本を抽出する理由:母集団全体を調査するのは困難なので、標本を用いて母集団の特性を推測します。
- 標本の代表性:標本が母集団をよく代表していることが重要です。これにより、標本から得られた情報を基に母集団全体の特性を推測できます。
具体例
例えば、ある会社の社員の平均年齢を知りたいとします。
- 母集団:その会社の全社員(例:1000人)。
- 標本:その会社の社員の中から無作為に選んだ100人。
この標本の100人の年齢データを基に、全社員(母集団)の平均年齢を推測します。
分散(Variance)
分散は、データのばらつき(散らばり具合)を示す指標です。具体的には、データが平均値からどの程度離れているかを測定します。
分散の計算方法
- 平均値を求める:
- データの平均値を計算します。
- 差の2乗を求める:
- 各データポイントから平均値を引き、その差を2乗します。
- 平均する:
- 2乗した値の平均を取ります。
標準偏差(Standard Deviation)
標準偏差は、分散の平方根を取ったものです。データのばらつきを元の単位で表すため、直感的に理解しやすくなります。
分散と標準偏差の関係
- 分散:データが平均値からどれだけ離れているかの「二乗された値」の平均です。
- 標準偏差:分散の平方根を取ったもので、データのばらつきを元のデータの単位で表します。
相関係数(Correlation Coefficient)
相関係数は、2つの変数の間の関係の強さと方向を示す指標です。具体的には、2つの変数がどの程度関連しているかを測定します。相関係数は-1から1の間の値を取り、次のように解釈されます:
- +1:完全な正の相関(1つの変数が増加すると、もう1つの変数も一定の割合で増加します)
- 0:相関がない(変数間に全く関係がない)
- -1:完全な負の相関(1つの変数が増加すると、もう1つの変数は一定の割合で減少します)
線形回帰(Linear Regression)
線形回帰は、2つの変数の間の関係を直線でモデル化する方法です。具体的には、1つの変数(独立変数)が他の変数(従属変数)にどのように影響を与えるかを理解し、予測するために使用されます。
線形回帰の目的
- 関係の把握:2つの変数の間にどのような関係があるかを理解します。
- 予測:既知の独立変数の値から、従属変数の値を予測します。
線形回帰の基本概念
- 独立変数(説明変数、x):
- 予測に使う変数です。例えば、広告費用、気温、勉強時間などが該当します。
- 従属変数(目的変数、y):
- 予測される変数です。例えば、売上高、アイスクリームの売上数、試験の点数などが該当します。
- 回帰直線:
- 独立変数と従属変数の関係を最もよく表す直線です。この直線を用いて、予測や分析を行います。
日常的な例
例えば、アイスクリームの売上を予測するために、気温との関係を調べる場合を考えます。
- 独立変数(x):気温(摂氏)
- 従属変数(y):アイスクリームの売上(個数)
データ収集とモデル作成
- データ収集:
- 例えば、過去1か月間の毎日の気温とその日に売れたアイスクリームの数を記録します。
- 回帰直線の作成:
- 収集したデータを基に、気温(x)と売上(y)の関係を示す直線を引きます。この直線が回帰直線です。
回帰直線の解釈
回帰直線が示すもの:
- 傾き:独立変数が1単位増加したときに、従属変数がどれだけ変化するかを示します。例えば、気温が1度上がると、アイスクリームの売上が何個増えるかを示します。
- 切片:独立変数が0のときに、従属変数がどれだけになるかを示します。これは、基礎的な売上などを表します。
予測の例
例えば、気温が30度の日にどれくらいアイスクリームが売れるかを予測したい場合:
- 回帰直線を使って、気温が30度のときの売上数を求めます。
決定係数(R²)
決定係数(R²)は、回帰分析においてモデルの適合度を示す指標です。具体的には、独立変数が従属変数の変動をどの程度説明できるかを示します。決定係数は0から1の範囲の値を取り、値が大きいほどモデルの適合度が高いことを示します。なお、決定係数は相関係数を2乗して求めることができ、これによりモデルの説明力がどの程度かを簡便に評価することが可能です。相関係数を2乗すると、負の相関も正の相関も同じく「どれだけ説明できるか」という尺度に変換することができるのです。
決定係数の解釈
- R² = 1:
- モデルがすべてのデータ点を完全に説明していることを示します。つまり、回帰直線がすべてのデータ点に完全に一致している場合です。
- R² = 0:
- モデルがデータの変動を全く説明していないことを示します。独立変数が従属変数に対して全く影響を与えていない場合です。
- 0 < R² < 1:
- モデルがデータの変動を部分的に説明していることを示します。R²の値が高いほど、モデルの説明力が高いことを意味します。
具体例
例えば、アイスクリームの売上を気温で予測する線形回帰モデルを考えます。
- データ収集:
- 過去の気温とアイスクリームの売上データを収集します。
- 回帰直線の作成:
- 収集したデータを基に、気温と売上の関係を示す回帰直線を作成します。
- 決定係数の計算:
- この回帰直線がどの程度データを説明しているかをR²で評価します。
決定係数の役割
- モデルの評価:
- 決定係数を使うことで、回帰モデルがどれだけデータを説明できているかを評価できます。高いR²の値は、モデルがデータの変動をよく説明していることを示します。
- 比較:
- 複数の回帰モデルを比較する際に、R²を使ってどのモデルが最も適合しているかを判断できます。
日常的な例
例えば、次のようなデータを考えます。
- 独立変数(x):気温
- 従属変数(y):アイスクリームの売上
気温がアイスクリームの売上に大きな影響を与える場合、回帰直線はデータに良く適合し、R²の値は高くなります。一方、気温と売上に関係がほとんどない場合、回帰直線はデータに適合せず、R²の値は低くなります。
F検定(分散比検定)
F検定は、2つ以上のグループの分散が等しいかどうかを検定するための統計手法です。主に、以下のような場面で使用されます。
用途
- 分散分析(ANOVA):
- 複数のグループ間の平均が等しいかどうかを検定します。
- 等分散性の検定:
- 2つの母集団の分散が等しいかどうかを検定します。
具体例
例えば、3つの異なる製品の寿命(時間)を比較する場合、各製品のデータを収集し、寿命の分散が等しいかどうかをF検定で確認します。もし分散が等しければ、製品の寿命のばらつきが同じ程度であると判断できます。
P値(P-value)
P値は、ある仮説が真であると仮定した場合に、観測されたデータがその仮説からどれだけずれているかを示す確率です。具体的には、P値が小さいほど、その仮説が正しくない(棄却されるべき)可能性が高いことを示します。
エクセルでのP値の計算
ここでは、t検定を使ってP値を計算する例を示します。t検定は、2つのグループの平均が統計的に異なるかどうかを検定する方法です。
例:
2つのグループのデータが以下のように与えられているとします:
グループA:10, 12, 13, 14, 15
グループB:14, 15, 16, 18, 20
ステップ1: データの入力
まず、エクセルのシートにデータを入力します。
- セル
A1
からA5
にグループAのデータを入力します。 - セル
B1
からB5
にグループBのデータを入力します。
ステップ2: t検定の実行
エクセルの T.TEST
関数を使用して、2つのグループ間のP値を計算します。
構文:
=T.TEST(array1, array2, tails, type)
array1
: グループAのデータ範囲(ここではA1:A5
)array2
: グループBのデータ範囲(ここではB1:B5
)tails
: 1または2(片側検定か両側検定かを指定)type
: t検定のタイプ(1, 2, 3のいずれか)
ここでは、両側検定(tails
に2を指定)と2サンプルの等分散あり(type
に2を指定)を使用します。
セル C1
に次の式を入力します:
=T.TEST(A1:A5, B1:B5, 2, 2)
ステップ3: 結果の解釈
セル C1
に表示される値がP値です。例えば、P値が0.03の場合、これは次のように解釈できます:
- P値が0.05未満であれば、一般的に有意水準5%で仮説を棄却します。つまり、グループAとグループBの平均に有意な差があると言えます。
- P値が0.05以上であれば、仮説を棄却できません。つまり、グループAとグループBの平均に有意な差がないと言えます。
- 今回はP値が約0.025のため有意な差があると言えます。
コイン投げの例
コインを5回投げて5回すべて表が出るという観測結果が得られたときにP値を求める。
帰無仮説(H0): コインは公平である(表が出る確率は0.5)。
対立仮説(H1): コインは公平ではない(表が出る確率は0.5ではない)。
コインを5回投げて5回すべて表が出るという観測結果が得られたとき、帰無仮説の下でこの結果が得られる確率(つまり、観測されたデータが得られる確率)を計算します。
観測された結果
- コインを5回投げて5回とも表が出る。
帰無仮説の下での確率
- 各回のコイン投げで表が出る確率は0.5。
- 5回中5回表が出る確率は (0.5)^5 です。
- 3.125%
p値の解釈
- p値は、観測されたデータまたはそれよりも極端なデータが得られる確率です。
- この場合、5回中5回表が出る確率は0.03125(3.125%)であり、これは観測されたデータが得られる確率です。
- さらに極端な結果はありませんので、p値はこの確率に等しいです。
結論
- コインを5回投げてすべて表が出る確率は3.125%です。
- したがって、p値は3.125%と言えます。
このp値が小さい(例えば、通常の有意水準0.05以下)場合は、帰無仮説を棄却し、対立仮説を採用する傾向があります。この具体的な例では、p値が3.125%であり、0.05(5%)よりも小さいため、帰無仮説(コインが公平である)を棄却するのに十分な証拠とみなされます。
T検定(平均値の差の検定)
T検定は、2つのグループの平均が統計的に有意に異なるかどうかを検定するための統計手法です。主に、以下のような場面で使用されます。
用途
- 独立標本T検定:
- 2つの独立したグループの平均を比較します。
- 例:薬の効果を調べるために、薬を投与したグループと投与していないグループの平均を比較します。
- 対応のある標本T検定:
- 同じ対象から2つの異なる時点でのデータを比較します。
- 例:ダイエットプログラム前後の体重を同じ人について比較します。
- 一標本T検定:
- サンプルの平均と既知の母集団の平均を比較します。
- 例:あるクラスの平均点が全国平均と異なるかどうかを検定します。
具体例
例えば、ある新しいダイエット法が体重減少に効果があるかどうかを調べる場合、ダイエットを行ったグループと行わなかったグループの平均体重の差をT検定で検証します。この結果が有意であれば、新しいダイエット法は効果があると判断できます。
F検定とT検定の違い
- 目的:
- F検定:分散の等しさを検定するために使用されます。
- T検定:平均の差を検定するために使用されます。
- 使用シナリオ:
- F検定:複数のグループ間の分散を比較する際に使用されます。
- T検定:2つのグループの平均を比較する際に使用されます。
- データの種類:
- F検定:通常、2つ以上のグループのデータを扱います。
- T検定:通常、2つのグループのデータを扱います(独立標本T検定、対応のある標本T検定の場合)。
手順の概要
- F検定を実施:
- まず、2つのグループの分散が等しいかどうかをF検定で確認します。
- 分散が等しい場合、等分散T検定(独立標本T検定)を使用します。
- 分散が等しくない場合、不等分散T検定(WelchのT検定)を使用します。
- T検定を実施:
- F検定の結果に基づいて、適切なT検定を選択して実施します。
- 等分散T検定(分散が等しい場合)
- 不等分散T検定(分散が等しくない場合)
F検定とT検定の組み合わせ
1. F検定を実施
目的:2つのグループの分散が等しいかどうかを確認する。
例:
- グループA:薬を投与したグループ
- グループB:薬を投与していないグループ
- データ収集:
- グループAとグループBのデータを収集します。
- F検定の実施:
- それぞれのグループの分散を計算し、F値を求めます。
- F値をF分布に当てはめ、p値を計算します。
- p値が選定した有意水準(例えば0.05)より大きければ、分散は等しいと仮定します。
- p値が有意水準以下であれば、分散は等しくないと判断します。
2. T検定を実施
目的:2つのグループの平均値が統計的に有意に異なるかどうかを確認する。
- 等分散T検定(分散が等しい場合):
- F検定の結果、分散が等しいと判断された場合に使用します。
- 等分散T検定を実施して、2つのグループの平均値の差を検定します。
- 不等分散T検定(分散が等しくない場合):
- F検定の結果、分散が等しくないと判断された場合に使用します。
- 不等分散T検定を実施して、2つのグループの平均値の差を検定します。
具体例
状況:新しい薬の効果を検証するために、薬を投与したグループAと投与しなかったグループBの血圧データを比較します。
- F検定:
- グループAの血圧データ:120, 122, 119, 121, 120
- グループBの血圧データ:130, 135, 128, 132, 134
- F検定を行い、分散が等しいかを確認します。
- F検定結果:
- p値が0.3だった場合(有意水準0.05より大きい)、分散が等しいと判断します。
- p値が0.01だった場合(有意水準0.05より小さい)、分散が等しくないと判断します。
- T検定:
- 分散が等しい場合:等分散T検定を実施します。
- 分散が等しくない場合:不等分散T検定を実施します。
カイ二乗検定(χ²検定)
カイ二乗検定は、カテゴリーデータに対する検定で、観測された頻度と期待される頻度が統計的に異なるかどうかを検証します。主に次のような場面で使用されます。
用途
- 適合度の検定:
- 観測されたデータが特定の理論的分布に従うかどうかを検定します。
- 例:サイコロが公正かどうかを確認する。
- 独立性の検定:
- 2つのカテゴリ変数が独立しているかどうかを検定します。
- 例:性別と喫煙習慣の間に関連があるかどうかを調べる。
具体例
例えば、ある町の男女別に喫煙者と非喫煙者の数を調べ、そのデータから性別と喫煙習慣に関連があるかを検証します。
カイ二乗検定(χ²検定)の具体例
データの入力
まず、エクセルのシートにデータを入力します。
喫煙者 | 非喫煙者 | |
---|---|---|
男性 | 30 | 70 |
女性 | 20 | 80 |
これをエクセルのセル範囲 A1:C3
に入力します。
ステップ1: データの入力
- セル
A1
に「性別」、B1
に「喫煙者」、C1
に「非喫煙者」 - セル
A2
に「男性」、B2
に「30」、C2
に「70」 - セル
A3
に「女性」、B3
に「20」、C3
に「80」
ステップ2: カイ二乗検定の実行
エクセルには、カイ二乗検定を簡単に行うための関数 CHISQ.TEST
があります。この関数は、観測されたデータと期待されるデータの間のカイ二乗統計量を計算し、その結果に基づいてP値を返します。
構文:
=CHISQ.TEST(actual_range, expected_range)
actual_range
: 観測されたデータの範囲(ここではB2:C3
)expected_range
: 期待されるデータの範囲(ここでは、手動で計算する必要があります)
ステップ3: 期待される頻度の計算
観測データから期待される頻度を計算します。期待される頻度は、行の合計と列の合計から計算されます。
- 行の合計:
- 男性の合計:
30 + 70 = 100
- 女性の合計:
20 + 80 = 100
- 男性の合計:
- 列の合計:
- 喫煙者の合計:
30 + 20 = 50
- 非喫煙者の合計:
70 + 80 = 150
- 喫煙者の合計:
- 総合計:
50 + 150 = 200
- 期待される頻度の計算:
- 男性喫煙者:
(行の合計 × 列の合計) / 総合計 = (100 × 50) / 200 = 25
- 男性非喫煙者:
(100 × 150) / 200 = 75
- 女性喫煙者:
(100 × 50) / 200 = 25
- 女性非喫煙者:
(100 × 150) / 200 = 75
- 男性喫煙者:
この計算結果をエクセルの別の範囲に入力します。例えば、セル E2:F3
に以下のように入力します。
喫煙者 | 非喫煙者 | |
---|---|---|
男性 | 25 | 75 |
女性 | 25 | 75 |
ステップ4: CHISQ.TEST関数の使用
観測データと期待データを基にカイ二乗検定を実行します。
セル D5
に次のように入力します:
=CHISQ.TEST(B2:C3, E2:F3)
ステップ5: 結果の解釈
セル D5
に表示される値がP値です。このP値を基に次のように解釈します:
- P値が0.05未満であれば、一般的に有意水準5%で性別と喫煙習慣に関連がある(独立していない)と言えます。
- P値が0.05以上であれば、性別と喫煙習慣に関連がない(独立している)と言えます。
- 今回のP値は 0.10247であり、0.05以上です。したがって、この結果からは性別と喫煙習慣の間に統計的に有意な関連がないと結論づけられます。
まとめ
- データを入力: 観測データと期待される頻度をエクセルに入力。
- カイ二乗検定の実行:
CHISQ.TEST
関数を使用してP値を計算。 - 結果の解釈: P値を基に仮説の評価を行う。
カイ二乗検定を用いることで、カテゴリーデータ間の関係を検証し、その関係が統計的に有意かどうかを判断することができます。エクセルを使えば、このプロセスを簡単に実行できます。
Z検定
Z検定は、標本平均が母平均からどの程度離れているかを検証するための検定です。特に、母分散が既知である場合やサンプルサイズが大きい場合に使用されます。Z検定の名前の由来は不明ですが、未知の数という意味でZになったという説があります。
用途
- 一標本Z検定:
- あるサンプルの平均が既知の母平均と異なるかどうかを検定します。
- 例:製品の平均寿命が既定の値と異なるかどうかを検証します。
- 二標本Z検定:
- 2つの独立したサンプルの平均が異なるかどうかを検定します。
- 例:2つの工場の製品の平均寿命が異なるかどうかを比較します。
具体例
例えば、ある工場の製品の平均寿命が1000時間であるとされているが、新しい製造方法で作られた製品の寿命がこれと異なるかを検証します。
- データ収集:
- 新しい製造方法で作られた製品の平均寿命が1020時間、標準偏差が50時間で、サンプルサイズが30の場合。
- Z検定の実施:
- 標本平均(1020時間)と母平均(1000時間)の差が統計的に有意かどうかをZ値を用いて検証します。
歪度(Skewness)
歪度は、データの分布が平均値を中心に対称かどうかを示す指標です。
- 歪度が0: データは平均値を中心に左右対称です。通常、正規分布と呼ばれる形をしています。
- 正の歪度: 平均値よりも小さい値にデータが多く集まり、右に長い尾を持つ分布です。右に歪んでいるといいます。
- 負の歪度: 平均値よりも大きい値にデータが多く集まり、左に長い尾を持つ分布です。左に歪んでいるといいます。
例: 社員の年齢分布が若い社員が多く、少数のベテラン社員がいる場合、正の歪度を示すことが多いです。
尖度(Kurtosis)
尖度は、データの分布が平均値周辺にどれだけデータが集中しているか、またはどれだけ裾が広がっているかを示す指標です。
- 尖度が0: 標準的な正規分布と同じ形です。
- 正の尖度: 平均値周辺にデータが集中している分布です。裾が細く、高いピークを持つ分布です。
- 負の尖度: 平均値周辺にデータがあまり集中せず、裾が広がっている分布です。低いピークを持ち、裾が太い分布です。
例: 社員の給与分布が、ほとんどの社員が平均的な給与をもらっている場合、正の尖度を示すことが多いです。
信頼区間とは何か?
信頼区間とは、データの平均値がどれくらいの範囲にあるかを推測する方法です。これは、母集団(全体)の平均値がどのくらいの範囲にあるかを、サンプル(部分的なデータ)から予測するものです。
例
- 問題の設定: ある会社で新入社員の初任給について調査を行いました。10人の新入社員にアンケートを取ったところ、平均の初任給が25万円でした。
- 信頼区間の意味: この結果から、会社全体の新入社員の初任給の平均がいくらになるかを知りたいと思います。しかし、10人のデータだけでは完全に正確な値はわかりません。そこで、「この範囲に本当の平均があるだろう」という範囲(信頼区間)を計算します。
- 信頼の度合い: 通常、95%の信頼区間を使用します。これは、「本当の平均値が、この範囲に95%の確率で入っている」と言う意味です。
具体的なイメージ
新入社員10人の初任給の平均が25万円だったとします。ここから、実際の母集団の初任給の平均がどのくらいの範囲にあるかを推測します。
例えば、「23万円から27万円の間に母集団の平均がある」といった具合です。これが信頼区間です。
信頼区間の幅
信頼区間が狭いほど、予測が正確であることを意味します。例えば、「24万円から26万円の間」と言う場合、予測がより正確です。一方で、「20万円から30万円の間」と言う場合、予測が少し曖昧になります。
まとめ
信頼区間とは、データから推測した「本当の平均値が入るだろう範囲」のことです。これを使うことで、データのばらつきを考慮しながら、全体の平均をより正確に予測することができます。
信頼区間の概念を理解するためのポイントは以下の通りです:
- データの平均から本当の平均を推測する方法。
- 一定の範囲に本当の平均があると考える。
- 95%の確率でその範囲に本当の平均が入っているとする。
有意水準
有意水準(ゆういすいじゅん)という言葉は、統計学のテストでよく使われますが、簡単に言うと「どのくらいの確率で結果が偶然ではないと言えるか」という基準を示しています。具体的には、次のように考えると分かりやすいです。
有意水準のイメージ
- コインの例:
- コインを投げたとき、表が出る確率は通常50%です。もし、10回連続でコインを投げて、すべて表が出たらどう感じますか?普通は「こんなに連続で表が出るのはおかしい」と思うでしょう。この「おかしい」と感じる度合いを数値で表したものが有意水準です。
- 確率と有意水準:
- 統計学では、通常「5%」や「1%」などの有意水準を使います。5%の有意水準というのは、結果が偶然に起こる確率が5%以下なら、その結果は偶然ではなく、何か特別な理由があると判断する基準です。
- 例えば、100回中5回しか起こらないような結果が出た場合、それを偶然とは考えずに「何か特別な理由がある」とみなします。
- 実験やテストでの有意水準:
- ある薬が本当に効果があるかを試す実験を考えましょう。もし、実験結果が有意水準5%以下であれば、その薬の効果は「偶然ではなく、本当に効果がある」と言えるのです。
- 一方、有意水準を超える結果(例えば6%)の場合、「その結果は偶然かもしれないので、薬の効果は確実ではない」と判断します。
日常の例
- お店の売上:
- ある日、特定の宣伝をした後に、いつもより多くのお客さんが来たとします。有意水準5%を設定すると、その日のお客さんの増加が偶然でない確率が95%ある場合、「宣伝の効果があった」と結論づけることができます。
このように、有意水準は「結果が偶然ではない」と判断するための基準です。ビジネスでも、科学実験でも、日常の様々な場面で、結果が偶然かどうかを判断するために使われています。
四分位数(Quartile)
四分位数は、データを4等分する位置を示します。四分位数は3つの値で構成され、データセットを4つの等しい部分に分けます。
- 第1四分位数(Q1): データの25%がこの値以下にある(第25百分位数に相当)。
- 第2四分位数(Q2): データの50%がこの値以下にある(中央値、第50百分位数に相当)。
- 第3四分位数(Q3): データの75%がこの値以下にある(第75百分位数に相当)。
簡単にまとめると、百分位数は「データを100等分して、そのうちの何%の位置にいるか」を表しています。これを使うと、全体の中で自分がどのくらいの位置にいるのかが分かりやすくなります。
QUARTILE.INC
関数の使い方
この関数は、データセットの指定された四分位数の値を返します。四分位数は、データを4つの等しい部分に分ける値を指します。
構文:
=QUARTILE.INC(array, quart)
array
: データの範囲(例えば、A1)。quart
: 求めたい四分位数を指定する数値。- 0: 最小値
- 1: 第1四分位数(Q1)
- 2: 第2四分位数(Q2、中央値)
- 3: 第3四分位数(Q3)
- 4: 最大値
第1四分位数(Q1)を求める場合:
=QUARTILE.INC(A1:A10, 1)
第2四分位数(中央値、Q2)を求める場合:
=QUARTILE.INC(A1:A10, 2)
第3四分位数(Q3)を求める場合:
=QUARTILE.INC(A1:A10, 3)