ビジネスデータ分析の基礎

2024年8月2日 2024年11月29日山崎講師

山崎講師

練習問題

問題1: 基本的なRAND関数の使用

0から1の間の乱数を生成してください。

解答1:

=RAND()

問題2: 任意の範囲での乱数生成

1から100の間の整数の乱数を生成してください。

解答2:

=INT(RAND()*100) + 1

問題3: 特定の範囲内での小数の乱数

5から10の間の小数の乱数を生成してください。

解答3:

=RAND() * (10 - 5) + 5

問題4: 複数の乱数の生成

それぞれ異なる0から1の間の乱数を10生成してください。

解答4:

=RAND()

問題4: 条件付きの乱数生成

1から50の間の乱数を生成し、その値が30以上なら「High」、それ以外なら「Low」と表示するようにしてください。

解答4:

=IF(INT(RAND()*50) + 1 >= 30, "High", "Low")

問題5: 乱数を用いたリストからのランダム選択

4つのセルに「Apple」「Banana」「Cherry」「Date」「Elderberry」を入力してください。4つのセルの中からランダムに1つを選択してください。

解答5:

=INDEX(F1:F5, RANDBETWEEN(1, 5))

データで考えることの意義

ダニエル・カーネマン（Daniel Kahneman）は、心理学者であり行動経済学の創設者の一人です。彼は、著書『ファスト＆スロー（Thinking, Fast and Slow）』で、人間の思考に関する2つのシステム、ファスト（直感的で迅速なシステム1）とスロー（論理的で慎重なシステム2）について詳細に説明しています。行動経済学の重要なテーマであるヒューリスティック（直感的判断法）に関する研究をまとめています。

統計学の父フィッシャー

フィッシャーのミルクティーの逸話は、統計学者ロナルド・フィッシャーが行った有名な実験で、確率論や統計学の基礎となる概念を示すものです。フィッシャーは「統計学の父」とも称される人物で、この逸話は彼の著作「The Design of Experiments」（1935年）に登場します。

フィッシャーのミルクティーの逸話

フィッシャーは、ティーパーティーで同僚の女性（マリー・ブリントン）が「ミルクを先に入れるか、紅茶を先に入れるかによって味が違う」と主張しているのを聞き、その主張を検証するために実験を提案しました。

実験のデザイン

目標：女性がミルクティーの入れ方（ミルク先か紅茶先か）を区別できるかを確認する。
手順：
- 同数の「ミルクを先に入れたティーカップ」と「紅茶を先に入れたティーカップ」を準備する（例えば4つずつ）。
- 各カップの内容を被験者には知らされないようにする。
- 被験者（女性）が各カップのティーを味見し、どちらの方法で作られたかを判別してもらう。
統計的分析：フィッシャーは、この実験結果がランダムな推測以上であるかどうかをP値を使って検証しました。

P値の計算

8つのティーカップのうち、4つが「ミルク先」、4つが「紅茶先」であった場合に、被験者が全て正しく判別する確率を計算します。この場合、P値は次のように計算されます。

帰無仮説（H0）：被験者はミルクティーの入れ方を区別できない（答えはランダム）。
対立仮説（H1）：被験者はミルクティーの入れ方を区別できる。
計算：各ティーカップをランダムに選ぶ場合の確率は 1/2 です。8回中すべてを正しく判別する確率は、(1/2)^8 で計算されます。

このP値（約0.0039）は非常に低い値であり、被験者がランダムに答えていると仮定するには十分ではありません。このため、帰無仮説を棄却し、対立仮説を採択する根拠となります。

実験の重要性

この逸話は、フィッシャーが提唱した「帰無仮説」と「有意水準」の概念を示すために非常に有名です。帰無仮説は、実験結果が偶然によるものであると仮定するものであり、P値を使ってその仮説を検証する方法は、統計学における仮説検定の基礎となります。

なぜ、"回帰"分析というのか？

「回帰分析」という名前は、フランシス・ゴルトンの「平均への回帰」という現象の研究に由来します。ゴルトンが親と子供の身長の関係を調べた際に観察した、極端な値が平均に近づく傾向を「回帰」と呼んだことから、この名前が付けられました。この用語は、その後、変数間の関係を分析する統計手法全般に適用されるようになり、今日の「回帰分析」として広く知られるようになりました。

ゴルトンは、親の身長と子供の身長のデータをプロットし、そこに「回帰直線」を引きました。この直線は、親の身長が平均より高い場合、子供の身長がどの程度平均に戻るかを示すことになります。回帰直線の傾きは、完全な相関がない場合に観測される平均への回帰の度合いを表します。

ちなみに、ゴルトンは進化論で知られるチャールズ・ダーウィンのいとこであり、遺伝学と優生学の先駆者として知られています。

統計記号の意味と由来

統計記号の意味と由来について簡潔にまとめます。

基本的な統計記号

μ (ミュー)

意味: 母平均 (population mean)
由来: ギリシャ文字のミュー。母集団の平均を表すために使われる。

σ (シグマ)

意味: 母標準偏差 (population standard deviation)
由来: ギリシャ文字のシグマ。母集団のばらつきを示すために使われる。

x̄ (エックスバー)

意味: 標本平均 (sample mean)
由来: ラテン文字のxの上にバーを付けて標本の平均を示す。

意味: 標本標準偏差 (sample standard deviation)
由来: ラテン文字のs。標本のばらつきを示すために使われる。

意味: 母比率 (population proportion)
由来: ラテン文字のp。母集団内の特定の性質を持つ割合を示す。

p̂ (ピーハット)

意味: 標本比率 (sample proportion)
由来: ラテン文字のpの上にハットを付けて標本の比率を示す。

Σ (シグマ)

意味: 総和 (sum)
由来: ギリシャ文字のシグマの大文字。数列の合計を示す。

π (パイ)

意味: 母分散 (population variance)
由来: ギリシャ文字のパイ。母集団のデータのばらつきの程度を示す。

α (アルファ)

意味: 有意水準 (significance level)
由来: ギリシャ文字のアルファ。統計的検定で誤って帰無仮説を棄却する確率を示す。

β (ベータ)

意味: 第II種の過誤 (Type II error probability)
由来: ギリシャ文字のベータ。誤って帰無仮説を受け入れる確率を示す。

β (ベータ)

意味: 回帰係数 (regression coefficient)
由来: ギリシャ文字のベータ。回帰分析における独立変数と従属変数の関係を示す係数を表す。

意味: t値 (t-value)
由来: ラテン文字のt。t検定で使用され、標本の平均が母平均からどれだけ離れているかを示す。

χ² (カイ二乗)

意味: カイ二乗値 (chi-square value)
由来: ギリシャ文字のカイの二乗。カイ二乗検定で使用され、観測データと期待データの間の差異を示す。

ρ (ロー)

意味: 相関係数 (correlation coefficient)
由来: ギリシャ文字のロー。変数間の線形関係の強さと方向を示す。

ν (ニュー)

意味: 自由度 (degrees of freedom)
由来: ギリシャ文字のニュー。統計的検定や分布における自由度を示す。

H₀ (エイチゼロ)

意味: 帰無仮説 (null hypothesis)
由来: ラテン文字のHに下付きの0。統計的検定で、検証するべき基礎仮説を示す。

H₁ (エイチワン)

意味: 対立仮説 (alternative hypothesis)
由来: ラテン文字のHに下付きの1。帰無仮説に対する対立仮説を示す。

R² (アール二乗)

意味: 決定係数 (coefficient of determination)
由来: ラテン文字のRの二乗。回帰分析におけるモデルの適合度を示す。

SE (Standard Error)

意味: 標準誤差
由来: 英語の「Standard Error」の略。標本平均の標準偏差を示し、母平均の推定精度を表す。

df (Degrees of Freedom)

意味: 自由度
由来: 英語の「Degrees of Freedom」の略。データの独立した観測の数を示す。

R (Correlation Coefficient)

意味: 相関係数
由来: ラテン文字のR。変数間の線形関係の強さを示す。

意味: 母集団のサイズ
由来: 英語の「Number」の頭文字。母集団の総数を示す。

意味: 標本のサイズ
由来: ラテン文字のn。標本の総数を示す。

α (Alpha)

意味: 信頼係数の補数
由来: ギリシャ文字のアルファ。通常は1から信頼水準を引いたものを示す。

β (Beta)

意味: 回帰係数の標準誤差
由来: ギリシャ文字のベータ。標準誤差を伴う回帰係数を示す。

意味: 標準得点 (Z-score)
由来: ラテン文字のZ。データポイントが平均からどれだけ標準偏差の単位で離れているかを示す。

意味: 中央値
由来: 英語の「Median」の頭文字。データの中央に位置する値を示す。

H (Harmonic Mean)

意味: 調和平均
由来: 英語の「Harmonic Mean」の頭文字。調和平均を示し、特に速度や比率の平均に用いられる。

S² (Sample Variance)

意味: 標本分散
由来: ラテン文字のSの二乗。標本の分散を示す。

P (Probability)

意味: 確率
由来: 英語の「Probability」の頭文字。ある出来事が発生する確率を示す。

意味: 推定された回帰係数
由来: ギリシャ文字のベータにハット記号。回帰分析において推定された係数を示す。

ϕ\phiϕ (ファイ)

意味: 正規分布の確率密度関数
由来: ギリシャ文字のファイ。正規分布の確率密度関数を表す。

θ\thetaθ (シータ)

意味: 母数
由来: ギリシャ文字のシータ。一般的に母数を示す。

意味: 平方和
由来: 英語の「Sum of Squares」の略。データのばらつきを示すために使われる。

意味: 平均平方
由来: 英語の「Mean Square」の略。分散分析における分散の指標。

意味: 変動係数
由来: 英語の「Coefficient of Variation」の略。標準偏差を平均で割った値。

意味: 期待値
由来: 英語の「Expected Value」の頭文字。確率変数の平均を示す。

意味: 第一四分位数
由来: 英語の「First Quartile」の略。データの下位25%の境界。

意味: 第三四分位数
由来: 英語の「Third Quartile」の略。データの上位25%の境界。

IQR (Interquartile Range)

意味: 四分位範囲
由来: 英語の「Interquartile Range」の略。データの第1四分位数と第3四分位数の差を示す。

意味: 信頼区間
由来: 英語の「Confidence Interval」の略。母平均が含まれる範囲を示す。

意味: 標準偏差
由来: 英語の「Standard Deviation」の略。データのばらつきを示す。

索引
A
アウトライヤー (Outlier): データの中で極端に離れた値。アナリシスオブバリアンス (ANOVA): グループ間の平均の差を検定する方法。アルファ (α, Significance Level): 仮説検定での有意水準。
B
バイアス (Bias): データや推定の偏り。ベイズの定理 (Bayes' Theorem): 条件付き確率を計算する方法。ブートストラップ法 (Bootstrap Method): 標本データを再抽出して推定量の分布を評価する手法。
C
カテゴリーデータ (Categorical Data): 質的なカテゴリーで表されるデータ。確率 (Probability): 事象が起こる可能性の度合い。確率変数 (Random Variable): 取る値がランダムに決まる変数。確率密度関数 (Probability Density Function): 連続変数の確率分布を表す関数。偏差 (Deviation): データ点が平均からどれだけ離れているか。偏り (Bias): 偏見や先入観によるデータの歪み。決定係数 (Coefficient of Determination, R²): 回帰モデルの説明力を示す指標。カイ二乗分布 (Chi-Square Distribution): カイ二乗検定に使われる分布。カイ二乗検定 (Chi-Square Test): 観測データと期待データの適合度を検定する方法。クラスター分析 (Cluster Analysis): データを自然にグループ分けする手法。クロスバリデーション (Cross-Validation): モデルの汎化性能を評価する方法。コックス比例ハザードモデル (Cox Proportional-Hazards Model): 生存分析に用いる回帰モデル。共分散 (Covariance): 2変数の同時変動を示す尺度。交絡因子 (Confounding Factor): 影響を与えるが測定していない変数。回帰分析 (Regression Analysis): 変数間の関係をモデル化する方法。回帰直線 (Regression Line): 回帰分析で求めた直線。感度 (Sensitivity): 真の陽性を正しく検出する割合。クリスカル・ウォリス検定 (Kruskal-Wallis Test): 3つ以上の独立した群の中央値の差を検定する非パラメトリック手法。
D
デザインオブエクスペリメンツ (Design of Experiments): 実験計画法。ディペンデンス (Dependence): 変数間の依存関係。ディストリビューション (Distribution): データの分布。
E
エフェクトサイズ (Effect Size): 効果の大きさを示す指標。
F
F検定 (F-Test): 2つの分散の比を検定する方法。F分布 (F-Distribution): F検定に用いる確率分布。フィッシャーの正確検定 (Fisher's Exact Test): 小さいサンプルサイズに適した独立性の検定。フィッシャーのz変換 (Fisher's z-Transformation): 相関係数の分布を正規化する方法。
G
標準得点 (Standard Score, z-Score): 平均からの標準偏差単位での距離。
H
箱ひげ図 (Box Plot): データの分布と異常値を示す図表。母集団 (Population): 統計的調査の対象となる全体。帰無仮説 (Null Hypothesis): 仮説検定において否定される仮説。中心極限定理 (Central Limit Theorem): 標本平均の分布が正規分布に近づく理論。ヒストグラム (Histogram): データの頻度分布を示す棒グラフ。
I
独立事象 (Independent Events): 他の事象に影響されない事象。独立変数 (Independent Variable): 他の変数に影響を与える変数。独立 (Independence): 2つの事象が互いに無関係であること。一元配置分散分析 (One-Way ANOVA): 1つの要因に対する分散分析。因子分析 (Factor Analysis): データの背後にある潜在因子を特定する手法。イントラカルクレベルアグリーメント (Intra-class Correlation): 同一クラス内の測定一致度を示す指標。
J
条件付き確率 (Conditional Probability): 他の事象が起きたときの確率。
K
検定力 (Power of a Test): 真の効果を発見する能力。確率変数 (Random Variable): ランダムに値を取る変数。確率密度関数 (Probability Density Function): 連続変数の確率分布。
L
ランダマイズドコントロールトライアル (Randomized Controlled Trial, RCT): 無作為化比較試験。大数の法則 (Law of Large Numbers): 標本平均が母平均に収束する理論。信頼性 (Reliability): 測定の一貫性。連続データ (Continuous Data): 任意の値を取るデータ。
M
平均 (Mean): データの中心値。メディアン (Median): データの中央値。最頻値 (Mode): 最も頻繁に出現する値。母集団 (Population): 調査対象の全体。母平均 (Population Mean): 母集団の平均。母分散 (Population Variance): 母集団の分散。モデルセレクション (Model Selection): 最適なモデルの選択。モノトニックトランスフォーメーション (Monotonic Transformation): 単調変換。
N
名義尺度 (Nominal Scale): カテゴリー分けのみを行う尺度。ノンパラメトリック検定 (Non-Parametric Test): 分布に依存しない検定。ノンパラメトリック手法 (Non-Parametric Methods): 分布に依存しない解析手法。正規分布 (Normal Distribution): データが平均値を中心に対称に分布。標準正規分布 (Standard Normal Distribution): 平均0、標準偏差1の正規分布。母平均 (Population Mean): 母集団の平均。母分散 (Population Variance): 母集団の分散。
O
オッズ比 (Odds Ratio, OR): ある事象が起こるオッズの比。
P
パラメトリック検定 (Parametric Test): 分布に基づいた検定。パラメトリック手法 (Parametric Methods): 分布に基づいた解析手法。ポイント推定 (Point Estimation): パラメータの点推定。パーミュテーションテスト (Permutation Test): 帰無分布を再サンプルで推定する検定。p値 (p-Value): 帰無仮説の下での観測データの確率。分散分析 (Analysis of Variance, ANOVA): グループ間の平均の差を検定。分散 (Variance): データのばらつきの尺度。標本 (Sample): 母集団の部分集合。標本平均 (Sample Mean): 標本の平均。標本分散 (Sample Variance): 標本の分散。標本標準偏差 (Sample Standard Deviation): 標本分散の平方根。ピアソンの相関係数 (Pearson's Correlation Coefficient): 2変数の線形関係の強さ。
Q
四分位範囲 (Interquartile Range, IQR): データの中央50%の範囲。定量データ (Quantitative Data): 数値で表されるデータ。質的データ (Qualitative Data): カテゴリーで表されるデータ。
R
ランダム化比較試験 (Randomized Controlled Trial, RCT): 無作為に割り当てられた試験。ランダム抽出 (Random Sampling): 無作為に標本を選ぶ方法。ランダム (Random): 偶然によるもの。リスク比 (Risk Ratio, RR): リスクの比率。ROC曲線 (ROC Curve): 真陽性率と偽陽性率の関係を示す曲線。回帰分析 (Regression Analysis): 変数間の関係をモデル化する方法。重回帰分析 (Multiple Regression Analysis): 複数の独立変数を用いる回帰分析。
S
標準偏差 (Standard Deviation): データのばらつきの尺度。標準化 (Standardization): データの標準偏差を1にする変換。標準誤差 (Standard Error, SE): 標本平均のばらつきの尺度。サンプリング (Sampling): 母集団から標本を選ぶこと。スピアマンの順位相関係数 (Spearman's Rank Correlation Coefficient): 順位データの相関係数。シグマ (σ): 標準偏差の記号。散布図 (Scatter Plot): 2変数のデータ点を示す図。信頼区間 (Confidence Interval): 母平均が含まれる範囲。
T
t検定 (t-Test): 2つの平均の差を検定する方法。t分布 (t-Distribution): 小さいサンプルサイズに適した分布。t得点 (t-Score): t分布に基づく標準得点。事後検定 (Post Hoc Test): 分散分析後に行う詳細検定。
U
無作為抽出 (Random Sampling): 無作為に標本を選ぶ方法。順序尺度 (Ordinal Scale): 順序に基づいた尺度。推測統計 (Inferential Statistics): 母集団について推測する統計。有意水準 (Significance Level, α): 仮説検定での誤差の許容限界。
V
妥当性 (Validity): 測定の正確さ。分散 (Variance): データのばらつきの尺度。視覚化 (Visualization): データを視覚的に表現する方法。
W
ウィルコクソン順位和検定 (Wilcoxon Rank-Sum Test): 2つの独立した群の中央値の差を検定。ウィルコクソンの符号順位検定 (Wilcoxon Signed-Rank Test): 対応のある2群の差を検定。
Z
z検定 (z-Test): 標準正規分布を用いる検定。z分布 (z-Distribution): 標準正規分布。z値 (z-Score): 標準正規分布に基づく得点。

投稿者プロフィール

山崎講師代表取締役

セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します！
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。