基本情報技術者試験の最新シラバスにおける統計・分布分野の予想問題と解説

こんにちは。ゆうせいです。

基本情報技術者試験のシラバス改定において、統計学や確率分布に関する項目がより詳細に定義されました。特にベルヌーイ分布や二項分布といった確率分布、歪度や尖度といったデータの分布形状を示す指標、そして仮説検定の考え方が重視されています。この記事では、改定内容に基づいた予想問題を作成し、各用語の意味を平易に解説します。

予想問題:統計と確率分布

問1 ある事象が起こる確率を p、起こらない確率を 1-p としたとき、1回の試行で結果が決定する確率分布を何と呼ぶか。また、この試行を独立に n 回繰り返したときに、事象が合計 k 回起こる確率を表す分布として適切なものはどれか。

A:ベルヌーイ分布、二項分布 B:二項分布、正規分布 C:正規分布、ポアソン分布 D:指数分布、ベルヌーイ分布

問2 データの分布の形状を評価する指標に関する記述のうち、適切なものはどれか。

A:歪度はデータのばらつきの大きさを表し、値が大きくなるほど平均値からの離れ具合が大きくなる。 B:尖度は分布の左右対称性を表し、正の値であれば右側に裾が長い分布となる。 C:歪度は分布の左右への偏りを表し、0より大きければ左側に山が偏り、右側に裾が長い形状となる。 D:尖度はデータの中心的な傾向を表し、中央値と平均値が一致しているかどうかを判定する指標である。

問3 統計的仮説検定において、本来は正しい帰無仮説を誤って棄却してしまう誤りを何と呼ぶか。

A:第1種の誤り B:第2種の誤り C:検出力 D:有意確率(p値)


用語解説と解答のポイント

ベルヌーイ分布と二項分布

ベルヌーイ分布は、コインの投げたときのように「表か裏か」「成功か失敗か」の2通りしか結果がない1回きりの試行を扱う分布です。高校生活に例えるなら、明日の小テストで「合格するか不合格するか」という1回の運試しのようなものです。 これに対し、二項分布はベルヌーイ試行を複数回繰り返した合計を扱います。10問の○×クイズで、適当に答えて何問正解できるかという確率を計算する場合などは、二項分布を用います。

問1の正解:A

歪度(わいど)と尖度(せんど)

データの分布がどのような「形」をしているかを示す指標です。 歪度は分布の左右のゆがみ具合を示します。例えば、クラス全員のテストの点数で、多くが満点に近いが一部に極端に低い点数の人がいる場合、分布の裾は左側に伸びます。このように左右のバランスが崩れている度合いを数値化します。 尖度は分布の「尖り」具合です。データが平均値付近に集中して山が鋭くなっているのか、それとも全体的に平べったく散らばっているのかを示します。

問2の正解:C

仮説検定と2種類の誤り

仮説検定は、ある主張(帰無仮説)が正しいかどうかを確率的に判断する手法です。ここでは、裁判をイメージすると理解しやすくなります。 第1種の誤りとは、本来は無実の人(正しい帰無仮説)を、誤って有罪(棄却)にしてしまうことです。これは「あわてんぼうの誤り」とも呼ばれます。 第2種の誤りとは、本来は有罪の人(偽の帰無仮説)を、証拠不十分で無罪(採択)にしてしまうことです。これは「ぼんやりした誤り」と言い換えることができます。

問3の正解:A

予想問題:相関・因果と回帰分析

問4 二つの変数間の関係性に関する記述のうち、適切なものはどれか。

A:二つの変数間に相関関係が認められれば、必ずそこには原因と結果という因果関係が存在する。 B:擬似相関とは、二つの変数に直接の因果関係はないが、第三の変数が両者に影響を与えることで、あたかも相関があるように見える状態を指す。 C:相関係数が 0 に近い値であるとき、二つの変数間には非常に強い正の相関があると言える。 D:正の相関がある場合、一方の数値が増加すると、もう一方の数値は減少する傾向にある。

問5 回帰分析における用語の説明として、適切なものはどれか。

A:説明変数とは、予測したい結果となる変数のことであり、通常は y で表される。 B:目的変数とは、予測の根拠として利用する変数のことであり、通常は x で表される。 C:単回帰分析は一つの説明変数を用い、重回帰分析は二つ以上の説明変数を用いて目的変数を予測する手法である。 D:ロジスティック回帰分析は、主に数値の大きさを無限の範囲で予測するために用いられる。


用語解説と解答のポイント

相関と因果、擬似相関

相関関係とは「一方が増えれば、もう一方が増える(または減る)」という数値上の連動性を指します。対して因果関係は「一方が原因となって、もう一方が結果として生じる」というメカニズムを指します。 ここで注意すべきが擬似相関です。例えば「アイスクリームの売上」と「水難事故の件数」には強い相関がありますが、アイスを食べたから事故が起きるわけではありません。これらは「気温の上昇」という第三の変数が共通の原因となっているだけです。これを「見かけ上の相関」と呼びます。

問4の正解:B

説明変数と目的変数

回帰分析は、ある数値を別の数値で説明しようとする試みです。 予測のヒントにする側を説明変数(原因側)、予測される結果の側を目的変数(結果側)と呼びます。 高校の勉強に例えると、「勉強時間(説明変数)」を使って「テストの点数(目的変数)」を予想するようなものです。説明変数が一つの場合を単回帰分析、勉強時間に加えて「睡眠時間」や「過去の成績」など複数のヒントを使う場合を重回帰分析と呼びます。

問5の正解:C

ロジスティック回帰分析

通常の回帰分析が「何点取るか」という連続した数値を予測するのに対し、ロジスティック回帰分析は「合格か不合格か(1か0か)」という「確率」や「分類」を予測するのに適した手法です。

予想問題:データの尺度と検定の精度

問6 統計学におけるデータの分類(尺度)に関する記述のうち、適切なものはどれか。

A:名義尺度は、血液型や出身地のように、分類のみを目的とした変数であり、平均値を計算することに意味がある。 B:順序尺度は、満足度(5段階評価)や順位のように、項目の順序には意味があるが、間隔が一定であるとは限らない。 C:間隔尺度は、身長や体重のように、値が0のときに「存在しない」ことを意味する絶対的な原点を持つ。 D:比例尺度は、温度(摂氏)のように、差には意味があるが、数値の比率(20度は10度の2倍の暑さなど)には意味を持たない。

問7 仮説検定における「検出力(検定力)」の説明として、適切なものはどれか。

A:帰無仮説が正しいときに、誤ってこれを棄却してしまう確率のこと。 B:対立仮説が正しいときに、正しく帰無仮説を棄却できる確率のこと。 C:サンプルサイズを小さくすればするほど、向上する数値のこと。 D:有意水準(p値のしきい値)を厳しくすればするほど、向上する数値のこと。


用語解説と解答のポイント

4つのデータ尺度

データをその性質によって4つの階層で分類します。

  1. 名義尺度:区別するための名前です。背番号などが該当し、足し算や平均に意味はありません。
  2. 順序尺度:順位です。1位と2位の差が、2位と3位の差と同じとは限りません。
  3. 間隔尺度:目盛りの間隔が一定のものです。温度(℃)が代表例で、20℃と10℃の差は10度ですが、20℃が10℃の2倍熱いという比率は成立しません(0℃は熱がゼロという意味ではないため)。
  4. 比例尺度:絶対的なゼロが存在する数値です。身長が0cmなら長さが存在しないことを意味し、180cmは90cmの2倍であると言えます。

問6の正解:B

検出力(検定力)

検定の「見逃しを防ぐ能力」のことです。 前回の解説で、第2種の誤りを「ぼんやりした誤り(有罪なのに無罪にしてしまう)」と表現しましたが、検出力はこの「ぼんやり」を回避して、正しく「有罪(対立仮説の成立)」を見抜く力(確率)を指します。 健康診断に例えると、実際に病気があるときに、正しく「再検査が必要(陽性)」と判定できる精度のことです。

問7の正解:B

こんにちは。ゆうせいです。

これまでの解説で、分布、相関、検定といった統計学の主要な柱を確認してきました。最後は、これらを総合的に活用するための「データのばらつき」と「推定」の核心部分について、シラバスの追加用語を交えて解説します。

予想問題:データのばらつきと推定の仕組み

問8 データのばらつきや分布の特性を示す指標に関する記述のうち、適切なものはどれか。

A:標準偏差は分散の正の平方根であり、元のデータと単位が一致するため、ばらつきの度合いを直感的に把握しやすい。 B:箱ひげ図において、箱の長さ(四分位範囲)が短いほど、データ全体のばらつきが非常に大きいことを示している。 C:中央値(メジアン)は、すべてのデータを足してデータの個数で割った値であり、外れ値の影響を最も強く受ける。 D:最頻値(モード)は、データを大きさの順に並べたときに中央に位置する値のことであり、数値データ以外には適用できない。

問9 統計的な推定に関する記述のうち、適切なものはどれか。

A:点推定とは、母集団のパラメータ(母平均など)を、ある程度の幅を持たせた範囲で予測する手法である。 B:区間推定において、信頼区間を95%から99%に広げると、推定の幅(区間の長さ)は短くなり、精度が高まる。 C:尤度(ゆうど)とは、ある観測データが得られたとき、想定したモデルやパラメータがどれほどもっともらしいかを表す指標である。 D:最尤推定(さいゆうすいてい)とは、データの平均値と中央値が一致するようにパラメータを調整する手法のことである。


用語解説と解答のポイント

分散と標準偏差

データの散らばり具合を数値化したものです。 分散は「平均からのズレ」を2乗して平均したものですが、2乗しているために単位が元のデータ(例:円)から「円の2乗」に変わってしまいます。そこで、ルートを取って単位を元に戻したものが標準偏差です。 これを料理の塩加減に例えると、分散は「味のムラの激しさ」そのもので、標準偏差は「具体的にどれくらい塩辛さに幅があるか」を実感できる数値にしたものと言えます。

問8の正解:A

推定と尤度(ゆうど)

手元のデータ(標本)から、全体の性質(母集団)を当てる作業です。 「犯人は20歳だ」と一点で言い当てるのが点推定、「犯人は20歳から25歳の間だ」と幅を持たせるのが区間推定です。 シラバスに追加された尤度は、英語で「Likelihood(もっともらしさ)」と言います。ある結果が起きたとき、「どの原因が一番ありそうか」を逆算するための指標です。釣った魚が鯛だったとき、そこが「釣り堀」なのか「大海原」なのか、どちらの仮説の方がしっくりくるか(尤度が高いか)を考えるようなイメージです。

問9の正解:C

今後の学習ステップ

  1. グラフと指標の対応付け 箱ひげ図を見て「第1四分位数」や「中央値」を読み取るだけでなく、その図から「データの偏り(歪度)」や「ばらつき(標準偏差)」を推測できるまで訓練します。
  2. 推定の「信頼」の意味を知る 「95%信頼区間」とは、100回同じ調査をしたら95回はその範囲に真実が含まれるという意味です。範囲を広げれば(99%にすれば)当たる確率は上がりますが、範囲が広すぎて予測としての有用性は下がるというトレードオフを理解します。
  3. 尤度と最尤推定の概念把握 複雑な計算式を追う前に、「得られたデータに最も適合するパラメータを選ぶ」という最尤推定のゴール地点を明確にします。
  4. 実務への橋渡し 基本情報技術者として、これらの統計知識を「システムのレスポンスタイムの分析」や「ソフトウェアのバグ発生率の予測」にどう応用するか、具体的な利用シーンを想像しながら復習してください。

統計学は、不確実な世の中を論理的に切り取るための強力な武器です。シラバスで強化されたこれらの用語を自分の言葉で説明できるようになれば、試験合格のみならず、エンジニアとしてのデータ分析基盤が完成します。

セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。