標準偏差とは何か?
標準偏差について会社の平均給与とばらつきを例に説明いたします。
標準偏差とは何か?
標準偏差とは、データのばらつき(散らばり具合)を表す統計指標です。簡単に言えば、データが平均値からどれくらい離れているかを示すものです。数値が大きいほど、データが平均値から広がっていることを意味し、数値が小さいほど、データが平均値の周りに集中していることを示します。
会社の平均給与を例に考えてみましょう
例えば、ある会社の従業員10人の月給が次のようだったとします。
- Aさん:30万円
- Bさん:35万円
- Cさん:28万円
- Dさん:50万円
- Eさん:40万円
- Fさん:38万円
- Gさん:42万円
- Hさん:33万円
- Iさん:45万円
- Jさん:32万円
これらの給与の平均を計算すると、次のようになります。
平均給与 = (30 + 35 + 28 + 50 + 40 + 38 + 42 + 33 + 45 + 32) / 10 = 37.3万円
この平均値だけを見ると、会社全体の給与水準を知ることができますが、個々の従業員が平均給与に対してどれくらいの差があるかはわかりません。そこで、このばらつきを表すために「標準偏差」を計算します。
標準偏差の計算方法
標準偏差は以下の手順で計算します。
- 各給与と平均給与の差を計算します。
- Aさんの場合:30万円 - 37.3万円 = -7.3万円
- Bさんの場合:35万円 - 37.3万円 = -2.3万円
- (以下同様に各従業員について計算)
- その差を2乗します(負の値を正にするため)。
- Aさんの場合:(-7.3万円)² = 53.29
- Bさんの場合:(-2.3万円)² = 5.29
- (以下同様に各従業員について計算)
- 2乗した値の平均を求めます。
- (53.29 + 5.29 + 87.69 + … + 28.09) / 10 = 85.01
- その平均値の平方根を取ると、標準偏差が求められます。
- √85.01 ≈ 9.22万円
標準偏差から何がわかるか?
求めた標準偏差が「9.22万円」でした。この値が示すのは、従業員の給与が平均給与37.3万円に対して、だいたい9.22万円の範囲でばらついているということです。
具体的な解釈
標準偏差が大きいと、給与のばらつきが大きいことを意味します。例えば、もし標準偏差が「15万円」であれば、一部の従業員が極端に高い給与をもらっているか、逆に極端に低い給与をもらっていることが考えられます。逆に標準偏差が「5万円」であれば、従業員の給与は比較的平均給与に近い範囲に収まっていることがわかります。
では、ばらつきの多い「A社」とばらつきの少ない「B社」を例に、標準偏差とデータのばらつきについて解説いたします。
A社とB社の給与データ
まず、2つの会社の従業員の給与データを見てみましょう。
A社の給与データ(ばらつきが大きい)
- 20万円
- 25万円
- 30万円
- 50万円
- 70万円
B社の給与データ(ばらつきが小さい)
- 35万円
- 37万円
- 36万円
- 38万円
- 37万円
平均給与を計算してみましょう
まず、両社の平均給与を計算します。
A社の平均給与: (20 + 25 + 30 + 50 + 70) / 5 = 39万円
B社の平均給与: (35 + 37 + 36 + 38 + 37) / 5 = 36.6万円
この平均給与だけを見ると、A社の平均給与は39万円、B社は36.6万円です。しかし、この数字だけでは、各従業員の給与が平均からどれだけ離れているのか(ばらつき)を判断することはできません。
A社とB社の標準偏差を計算してみましょう
次に、標準偏差を計算してみます。
A社の標準偏差
- 各給与と平均給与との差を計算します。
- 20万円 - 39万円 = -19万円
- 25万円 - 39万円 = -14万円
- 30万円 - 39万円 = -9万円
- 50万円 - 39万円 = 11万円
- 70万円 - 39万円 = 31万円
- その差を2乗します。
- (-19万円)² = 361万円
- (-14万円)² = 196万円
- (-9万円)² = 81万円
- (11万円)² = 121万円
- (31万円)² = 961万円
- 2乗した値の平均を求めます。
- (361 + 196 + 81 + 121 + 961) / 5 = 344万円
- 平方根を取ると、標準偏差が求められます。
- √344 ≈ 18.54万円
B社の標準偏差
- 各給与と平均給与との差を計算します。
- 35万円 - 36.6万円 = -1.6万円
- 37万円 - 36.6万円 = 0.4万円
- 36万円 - 36.6万円 = -0.6万円
- 38万円 - 36.6万円 = 1.4万円
- 37万円 - 36.6万円 = 0.4万円
- その差を2乗します。
- (-1.6万円)² = 2.56万円
- (0.4万円)² = 0.16万円
- (-0.6万円)² = 0.36万円
- (1.4万円)² = 1.96万円
- (0.4万円)² = 0.16万円
- 2乗した値の平均を求めます。
- (2.56 + 0.16 + 0.36 + 1.96 + 0.16) / 5 = 1.04万円
- 平方根を取ると、標準偏差が求められます。
- √1.04 ≈ 1.02万円
A社とB社の標準偏差の比較
- A社の標準偏差は「18.54万円」
- B社の標準偏差は「1.02万円」
この結果から、A社の標準偏差が大きく、B社の標準偏差が小さいことがわかります。つまり、A社の給与は平均値から大きくばらついているのに対し、B社の給与は平均値に近い範囲で分布しているということです。
具体的な解釈
A社では、従業員間の給与差が非常に大きく、一部の従業員は非常に高い給与を得ている一方で、他の従業員は低い給与を得ている可能性があります。このようなばらつきの大きさは、給与体系における格差を示していると言えます。
B社では、従業員の給与が平均に非常に近い範囲で集中しており、給与のばらつきが小さいことから、従業員間の給与格差が少ないと考えられます。このような場合、給与体系はより公平であると感じられるかもしれません。
まとめと今後の学習
この例からわかるように、標準偏差を使うことで、データがどの程度ばらついているかを明確に理解できます。A社とB社の比較を通じて、同じ「平均給与」を持っていても、会社ごとの給与分布の特徴が全く異なることが理解できたと思います。
今後の学習では、異なるデータセットの標準偏差を計算してみたり、標準偏差が変化する原因を探ったりすることを通じて、データ分析のスキルを深めていくことが重要です。また、標準偏差以外にも、分散や範囲といった他のばらつき指標も学んでみると、より深い理解が得られるでしょう。