【超入門】記述統計と推測統計の違いは?データ分析の第一歩を踏み出そう
こんにちは。ゆうせいです。
エンジニアとして働き始めると、ログデータやユーザー数など、たくさんの「数字」に囲まれることになりますよね。でも、その数字をただ眺めているだけでは、宝の持ち腐れになってしまいます。
データを分析して、そこから価値ある情報を引き出すための武器、それが統計学です。
統計学を学び始めると、最初にぶつかる大きな壁があります。それが、記述統計と推測統計という2つの言葉です。
みなさんは、この2つの違いを説明できますか?
今回は、この重要な2つのアプローチについて、専門用語を使いつつも、高校生でもわかるように噛み砕いてお話しします。数式も少しだけ出てきますが、怖がらずについてきてくださいね。
今あるデータを要約する「記述統計」
まず最初に紹介するのは、記述統計です。英語ではDescriptive Statisticsと言います。
これは、手元にあるデータを整理整頓して、そのデータがどんな特徴を持っているかをわかりやすく表現するための手法です。
例えるなら、学校の定期テストの結果が返ってきたときを想像してください。クラス全員の点数がズラッと並んだリストを見ても、クラス全体の出来栄えはピンときませんよね。そこで、クラスの平均点を出したり、最高点と最低点を確認したりします。
このように、バラバラで大量にあるデータを、ひとつの数値や指標にまとめて全体像をつかむこと。それが記述統計の役割です。
ここでよく使われる専門用語をいくつか見ていきましょう。
代表値(平均・中央値・最頻値)
データ全体の中心がどこにあるかを示す値を代表値と言います。もっとも馴染み深いのは平均値でしょう。
平均値 = 全データの合計 データの個数
このように計算しますね。しかし、平均値だけでは見えないこともあります。極端に点数が高い人が一人いると、平均は釣り上がってしまうからです。
そんなときは、データを小さい順に並べたときに真ん中にくる中央値や、もっとも頻繁に現れる値である最頻値を使います。これらも記述統計の大事な道具です。
散布度(分散・標準偏差)
平均点が同じ60点のクラスが2つあったとします。A組は全員が50点から70点の間ですが、B組は0点から100点までバラバラです。平均は同じでも、中身は全然違いますよね。
このデータの散らばり具合を数字で表すのが散布度です。特によく使われるのが分散と標準偏差です。
分散 = (偏差の2乗の和) データの個数
ちょっと難しそうに見えますが、要するに平均からどれくらい離れているか(偏差)を計算して、それを平均したものです。記述統計では、このように手元のデータをとことん分析して、その性質を明らかにしていきます。
まだ見ぬ全体を予想する「推測統計」
次に、推測統計についてお話ししましょう。英語ではInferential Statisticsと言います。
記述統計が手元のデータそのものを分析するのに対し、推測統計は手元のデータ(一部)を使って、その背後にあるもっと大きなデータ全体(全体)の性質を推測する手法です。
例えるなら、お味噌汁の味見です。お鍋いっぱいのお味噌汁の味を知るために、全部飲み干す必要はありませんよね?お玉ですくった一口分(一部)を飲めば、お鍋全体(全体)の味がわかります。
このように、一部の情報から全体を推測するのが推測統計の醍醐味です。
ここで重要な専門用語が出てきます。
母集団と標本
分析したい対象全体のことを母集団と言います。お味噌汁の例で言えば、お鍋の中身すべてです。
そして、そこからランダムに取り出した一部のデータのことを標本(サンプル)と言います。お玉ですくった一口分のお味噌汁のことですね。
推測統計のゴールは、標本を分析することで、母集団の性質を言い当てることです。
確率と信頼区間
もちろん、推測にはズレが生じる可能性があります。たまたま具が多い部分をすくってしまったかもしれません。そこで、推測統計では確率という考え方を使います。
95%の確率で、真の平均値はこの範囲に入っていますよ
というように、幅を持たせて推測結果を提示します。この幅のことを信頼区間と呼びます。完全に言い切るのではなく、リスクを含めて説明するところがエンジニアらしくて誠実だと思いませんか?
それぞれのメリットとデメリット
さて、2つの統計学の違いが見えてきたところで、それぞれの得意なことと苦手なことを整理しましょう。
記述統計のメリット・デメリット
記述統計の最大のメリットは、手元にあるデータに関しては、100%正確な事実を伝えられることです。曖昧さがありません。「今月のWebサイトの訪問者数は平均1000人でした」というのは、揺るぎない事実です。
一方でデメリットは、手元にないデータのことは何もわからないという点です。来月の訪問者数がどうなるか、あるいはデータを取っていない他のユーザーがどう思っているか、といった未来や未知のことについては語れません。
推測統計のメリット・デメリット
推測統計のメリットは、すべてのデータを集めなくても全体像がわかることです。例えば、日本全国の意識調査をする際、1億人全員にアンケートを取るのは時間もお金もかかりすぎて現実的ではありません。しかし、推測統計を使えば、数千人のデータから日本全体の傾向を知ることができます。コストパフォーマンスが非常に高いのです。
デメリットは、どうしても誤差が含まれることです。100%の正解ではないため、結果を利用する際には「どのくらいの確率で正しいのか」を常に意識する必要があります。
エンジニアとしてどう使い分ける?
新人エンジニアのみなさんが業務で遭遇するのは、まずは記述統計が多いはずです。「先月のサーバーのエラー数はどうだった?」と聞かれて答えるのは記述統計の世界です。
しかし、経験を積んで「来月はどれくらいサーバーを増強すべきか?」や「AとBのデザイン、どっちがユーザーに好かれるか?」といった判断を求められるようになると、推測統計の知識が不可欠になります。
まずは、目の前のデータをExcelやプログラムで集計して、平均や標準偏差を出してみましょう。データの特徴を言葉で説明できるようになることが、最初の一歩です。
その後、Pythonなどのプログラミング言語を使って、少しずつ推測統計の手法に触れていってください。Scikit-learnやStatsmodelsといったライブラリを使えば、複雑な計算もコンピュータが助けてくれます。
統計学は、エンジニアとしてのあなたの発言に、客観的な説得力を持たせてくれる最強の武器になります。
今日から少しずつ、数字と仲良くなっていきましょう!
次のアクション
手始めに、身近にあるデータ(自分の毎日の歩数や、スマホのスクリーンタイムなど)を使って、平均値と標準偏差を計算してみませんか?もしよければ、計算結果をどう解釈したか教えてください。一緒にデータ分析の面白さを体感しましょう。
セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
最新の投稿
山崎講師2025年11月22日【高校生必見】ChatGPTの中身は数学?AI技術「Transformer」を徹底解説!
山崎講師2025年11月22日心理学検定 テキスト
山崎講師2025年11月22日【超入門】FP2級(ファイナンシャル・プランニング技能検定2級)
山崎講師2025年11月22日【超入門】確率の計算が劇的に早くなる?新人エンジニアが知っておくべき「余事象」の魔法