基本情報技術者試験シラバス改定に対応した機械学習・ディープラーニング予想問題

こんにちは。ゆうせいです。

こんにちは。ゆうせいです。

基本情報技術者試験の最新シラバスにおける機械学習・ディープラーニング分野の予想問題と解説

シラバスの改定により、AI(人工知能)に関する項目が大幅にアップデートされました。従来の機械学習の手法に加え、生成AIの基盤となる大規模言語モデル(LLM)や、モデルの評価・調整に関する専門用語が数多く追加されています。この記事では、これらの改定ポイントに基づいた予想問題を作成し、初心者の方にも分かりやすく解説します。

予想問題:機械学習とディープラーニング

問1 機械学習におけるモデルの評価指標の一つである「ROC曲線」の説明として、適切なものはどれか。

A:学習データに対して過剰に適合してしまい、未知のデータに対する予測性能が低下している状態を示す曲線。 B:縦軸に真陽性率、横軸に偽陽性率をとり、判定のしきい値を変化させたときの軌跡を描いた曲線。 C:ニューラルネットワークにおいて、誤差を計算層から入力層に向かって逆方向に伝播させて重みを更新する手順を示す曲線。 D:学習回数に応じて、損失関数の値がどのように減少していくかを表した曲線。

問2 ディープラーニング(深層学習)のモデル構築において、あるタスクで学習済みのモデルを、別の関連する新しいタスクの学習に再利用する手法を何と呼ぶか。

A:ファインチューニング B:バックプロパゲーション C:転移学習 D:自己教師あり学習

問3 大規模言語モデル(LLM)などの生成AIを利用する際、適切な回答を得るために、AIへの指示や入力を工夫・最適化する技術を何と呼ぶか。

A:基盤モデル B:プロンプトエンジニアリング C:次元削減 D:クラスタリング


用語解説と解答のポイント

ROC曲線とモデル評価

機械学習で「病気か健康か」を判定するモデルを作った際、その「診断能力」を評価する必要があります。ROC曲線は、しきい値を厳しくしたり緩くしたりしたときに、どれだけ正しく見抜けるか(真陽性率)と、どれだけ誤診するか(偽陽性率)のバランスをグラフにしたものです。 グラフが左上の角に近いほど、診断能力が高い優れたモデルであると言えます。

問1の正解:B

転移学習とファインチューニング

これらは「効率よく学習させる」ためのテクニックです。 転移学習は、例えば「犬と猫を見分ける」ために学習したモデルの知能を、そのまま「車とバイクを見分ける」学習に再利用することを指します。これは、一流の野球選手がゴルフを始めるとき、体の使い方の基礎ができているため上達が早いのと似ています。 一方で、ファインチューニングは再利用したモデルを新しいデータに合わせて「微調整」する工程を指します。

問2の正解:C

生成AIとプロンプトエンジニアリング

最近のシラバス改定で最も注目されている分野です。 LLM(大規模言語モデル)は、インターネット上の膨大なテキストを学習した「基盤モデル」です。このAIに対して、「あなたはプロのライターです」といった役割を与えたり、質問の仕方を工夫したりして、望む回答を引き出す技術がプロンプトエンジニアリングです。魔法使いが正しい「呪文」を唱えて魔法を発動させるイメージに近いです。

問3の正解:B

予想問題:深層学習の構造と生成モデル

問4 ニューラルネットワークの学習において、出力層で算出された誤差を入力層側へと順次伝播させ、各層の重みを効率的に更新する手法を何と呼ぶか。

A:勾配消失問題 B:バックプロパゲーション(誤差逆伝播法) C:活性化関数 D:事前学習

問5 画像生成AIなどで用いられ、ノイズから徐々にデータを取り出すプロセスを通じて、高品質な画像を生成する手法を何と呼ぶか。

A:CNN(畳み込みニューラルネットワーク) B:RNN(リカレントニューラルネットワーク) C:拡散モデル D:GAN(敵対的生成ネットワーク)

問6 二つのニューラルネットワーク(生成器と識別器)を競わせることで、実物と見分けがつかないような偽造データを生成する技術を何と呼ぶか。

A:自己教師あり学習 B:マルチモーダル学習 C:GAN(敵対的生成ネットワーク) D:回帰分析


用語解説と解答のポイント

バックプロパゲーションと活性化関数

ニューラルネットワークが「賢くなる」プロセスです。 予測が外れたとき、その「間違い(誤差)」を後ろから前へと伝え、各部品(重み)をどれくらい調整すれば正解に近づくかを計算します。これがバックプロパゲーションです。 ただし、層が深すぎると途中で誤差の情報が消えてしまうことがあり、これを勾配消失問題と呼びます。これを防ぐために、情報の伝達を調整する活性化関数が重要な役割を果たします。

問4の正解:B

生成モデル:拡散モデルとGAN

最新のAIが「絵を描く」仕組みには、主に2つの流れがあります。 拡散モデルは、霧の中(ノイズ)から少しずつ形を削り出していく彫刻のような手法です。現在の主要な画像生成AIの多くに採用されています。 GAN(敵対的生成ネットワーク)は、「偽札作り」と「警察官」の追いかけっこに例えられます。一方がより精巧な偽物を作り、もう一方がそれを見破る訓練を繰り返すことで、最終的に本物そっくりのデータが出来上がります。

問5の正解:C 問6の正解:C

予想問題:自然言語処理と学習のプロセス

問7 自然言語処理において、単語や文の文脈を考慮するために、時系列データの情報を保持しながら処理を行うニューラルネットワークの構造を何と呼ぶか。

A:CNN(畳み込みニューラルネットワーク) B:RNN(リカレントニューラルネットワーク) C:主成分分析 D:ランダムフォレスト

問8 機械学習のモデル構築において、学習データとは別に用意したデータを用いて、モデルのパラメータを調整したり、過学習が起きていないかを確認したりするために使用するデータを何と呼ぶか。

A:学習(訓練)データ B:検証データ C:テストデータ D:評価用メタデータ

問9 あらかじめ大量のデータで学習させた大規模なモデルに対して、特定の目的(例:医療診断や法律相談)に合わせた少量のデータを追加で学習させ、精度を高める作業を何と呼ぶか。

A:事前学習 B:次元削減 C:ファインチューニング D:バックプロパゲーション


用語解説と解答のポイント

RNN(リカレントニューラルネットワーク)

RNNは、過去の情報を「記憶」しながら次のデータを処理する仕組みを持っています。 文章を読むとき、私たちは前の単語の意味を覚えたまま次の単語を読みます。このように、データの「順番」が重要な意味を持つ音声やテキストの処理に特化したネットワークです。

問7の正解:B

3種類のデータ(学習・検証・テスト)

モデルを作る際は、データを役割ごとに分けるのが鉄則です。

  1. 学習データ:AIが「練習」するための問題集です。
  2. 検証データ:練習中に「模試」を行い、学習の進み具合や設定(ハイパーパラメータ)を調整するために使います。
  3. テストデータ:最後に一度だけ受ける「本番入試」です。これで最終的な実力を測ります。 練習問題ばかり解いていると、その問題の答えだけを丸暗記してしまい、応用が効かなくなる「過学習」に陥ることがあります。

問8の正解:B

ファインチューニング

これは「専門教育」のようなものです。 すでに一般的な常識を備えたAI(事前学習済みモデル)に対して、特定の分野の知識を少しだけ教え込むことで、短期間で専門家レベルの回答ができるようになります。ゼロから教育するよりも、圧倒的にコストと時間を節約できるのがメリットです。

問9の正解:C

予想問題:アルゴリズムの特性と評価

問10

アンサンブル学習の一種であり、複数の決定木を独立に学習させ、その結果の多数決や平均によって最終的な予測を行う手法を何と呼ぶか。

A:線形回帰

B:サポートベクトルマシン(SVM)

C:ランダムフォレスト

D:主成分分析

問11

教師なし学習の手法の一つで、多次元のデータを、情報の損失を最小限に抑えつつ、より低い次元のデータに要約する手法を何と呼ぶか。

A:クラスタイリング

B:次元削減

C:ロジスティック回帰

D:決定木

問12

モデルの汎化性能を評価する手法の一つで、データを $n$ 個に分割し、そのうちの1つをテスト用、残りを学習用として、役割を入れ替えながら $n$ 回学習と評価を繰り返す手法を何と呼ぶか。

A:ホールドアウト検証

B:交差検証(クロスバリデーション)

C:事前学習

D:バックプロパゲーション


用語解説と解答のポイント

ランダムフォレスト

「決定木」という、条件分岐(Yes/No)を繰り返して答えを導く手法をたくさん集めたものがランダムフォレストです。

1人の専門家の意見を聞くのではなく、100人の一般人にアンケートを取って多数決で決めるような仕組みです。これにより、一部の極端なデータに惑わされることなく、安定した精度の高い予測が可能になります。

問10の正解:C

次元削減(主成分分析など)

たくさんの情報(変数)がある中で、本当に重要なエッセンスだけを取り出す作業です。

例えば、リンゴを評価するときに「重さ」「直径」「体積」の3つのデータがあっても、これらは互いに似た情報です。これらを「大きさ」という1つの指標にまとめることで、データを扱いやすくし、コンピュータの計算負荷を下げることができます。

問11の正解:B

交差検証(クロスバリデーション)

限られたデータを有効に活用して、モデルの本当の実力を測るための工夫です。

手元にある教科書を数ページずつ「練習用」と「小テスト用」に交代で使い回し、全ページでテストを行うようなものです。これにより、たまたま練習した問題がテストに出ただけという「運」の要素を排除し、モデルの汎化性能(未知のデータへの対応力)を正しく評価できます。

問12の正解:B

予想問題:データの分割と評価の妥当性

問13 機械学習のモデル構築において、手元にあるデータを「学習用」と「テスト用」の二つに一度だけ分割し、学習用データで作成したモデルの性能をテスト用データで評価する最も基本的な手法を何と呼ぶか。

A:交差検証 B:ホールドアウト検証 C:アンサンブル学習 D:次元削減

問14 機械学習モデルが学習データに対して過度に適合してしまい、未知のデータ(テストデータ)に対して正解率が著しく低下してしまう現象を何と呼ぶか。

A:凡化(はんか) B:過学習(オーバーフィッティング) C:未学習(アンダーフィッティング) D:事前学習

問15 二値分類モデルの評価において、横軸に「偽陽性率」、縦軸に「真陽性率」をとったグラフを作成した際、グラフの下側の面積(AUC)がどのような状態であるほど、モデルの判別性能が高いと言えるか。

A:面積が 0 に近いほど良い。 B:面積が 0.5 固定であるほど良い。 C:面積が 1 に近いほど良い。 D:面積の大きさは性能に関係しない。


用語解説と解答のポイント

ホールドアウト検証

データを「学習用」と「テスト用」にバッサリと分ける手法です。 受験勉強に例えると、手元にある過去問10年分のうち、8年分を練習(学習)に使い、残りの2年分を自分の実力を測るための「模擬試験(テスト)」として取っておくようなものです。非常にシンプルで計算負荷が低いのがメリットですが、データの分け方によって評価結果が左右されやすいという側面もあります。

問13の正解:B

過学習(オーバーフィッティング)

AIが「練習問題の答えだけ」を丸暗記してしまった状態です。 練習問題(学習データ)では満点を取るのに、少しひねった初見の問題(未知のデータ)が出ると全く解けなくなる現象を指します。これを防ぐためには、モデルを複雑にしすぎないことや、十分な量のデータを用意することが重要です。

問14の正解:B

ROC曲線とAUC

前述のROC曲線の下側の面積をAUC(Area Under the Curve)と呼びます。 この面積は 0 から 1 の間の値をとります。完全にランダムな予測(勘で答える)の場合は 0.5 になり、完璧に正解を当てる理想的なモデルの場合は 1 になります。つまり、面積が広いほど「賢いAI」であると判断できます。

問15の正解:C

こんにちは。ゆうせいです。

前回の内容に続き、シラバス改定でより具体的に定義された「ディープラーニングの応用」と「最新のAI活用技術」に焦点を当てた予想問題と解説を作成しました。

予想問題:高度なニューラルネットワークと学習手法

問16 画像認識の分野で広く用いられ、入力データに対して「フィルタ処理」を行うことで、画像の特徴(エッジや形状など)を効率的に抽出する構造を持つニューラルネットワークを何と呼ぶか。

A:RNN(リカレントニューラルネットワーク) B:CNN(畳み込みニューラルネットワーク) C:GAN(敵対的生成ネットワーク) D:主成分分析

問17 ディープラーニングの学習において、学習の初期段階で汎用的な特徴をあらかじめ学ばせておくことで、その後の本学習を効率化する工程を何と呼ぶか。

A:事前学習 B:ファインチューニング C:バックプロパゲーション D:勾配消失問題

問18 ある特定の入力に対して、モデルがどの部分を重視して処理を行ったか(注目したか)を動的に決定する仕組みであり、現在の自然言語処理や大規模言語モデル(LLM)の基盤技術となっているものを何と呼ぶか。

A:活性化関数 B:アテンション(注意機構) C:次元削減 D:クラスタリング


用語解説と解答のポイント

CNN(畳み込みニューラルネットワーク)

CNNは「人間の目の仕組み」を模したネットワークです。 画像全体を一度に抽象的に見るのではなく、小さな窓(フィルタ)で画像をスキャンしながら「ここに横線がある」「ここに丸い角がある」といった特徴を見つけ出します。この「畳み込み」という作業を繰り返すことで、最終的に「これは猫だ」という高度な判断が可能になります。

問16の正解:B

事前学習とアテンション

現在のAI開発は「巨人の肩の上に立つ」手法が主流です。 まず、膨大なデータを使って「言葉の並びの基本」や「世界の一般的な知識」を学ばせるのが事前学習です。 その中心にあるアテンション(注意機構)という技術は、文章を読むときに「どの単語が重要か」を判断する仕組みです。例えば「彼は川に行ったが、そこには誰もいなかった」という文で、「そこ」が「川」を指していることに「注目(Attention)」する力をAIに与えました。

問17の正解:A 問18の正解:B

こんにちは。ゆうせいです。

これまで解説してきた基本情報技術者試験のシラバス改定ポイント(統計・機械学習・ディープラーニング)について、要点を整理してまとめます。

統計・分析分野の要点

データの性質を正しく理解し、客観的な根拠に基づいて判断する力が問われます。

  • データの尺度:名義・順序・間隔・比例の4尺度を区別し、平均値や比率が計算可能かを判断する。
  • 分布の形状:正規分布だけでなく、ベルヌーイ分布二項分布の性質、さらに分布のゆがみを示す歪度、尖りを示す尖度を把握する。
  • 相関と因果:数値上の連動(相関)と原因・結果(因果)を混同せず、第三の変数が影響する擬似相関に注意する。
  • 仮説検定:帰無仮説と対立仮説の設定、p値による判定、そして第1種の誤り(あわてんぼう)と第2種の誤り(ぼんやり)の違いを理解する。

機械学習・ディープラーニング分野の要点

AIを単なるツールとして使うだけでなく、その仕組みと評価手法をエンジニアの視点で捉える必要があります。

  • 学習の分類:教師あり(回帰・分類)、教師なし(クラスタリング・次元削減)、強化学習の目的と代表的手法(ランダムフォレストSVMなど)を一致させる。
  • モデルの評価ホールドアウト検証交差検証凡化性能を確認し、過学習を防ぐ。評価指標としてROC曲線AUCを活用する。
  • 深層学習の構造:画像に強いCNN、時系列に強いRNN、そして現在のLLMの基盤である**アテンション(注意機構)**の役割を理解する。
  • 最新の生成モデルGAN(敵対的生成ネットワーク)や拡散モデル大規模言語モデル(LLM)の概要と、それらを操るプロンプトエンジニアリングの重要性を抑える。

学習の最終ステップ

  1. 用語の「背景」を理解する 単語の暗記にとどまらず、「なぜその技術が必要なのか(例:過学習を防ぐため、計算負荷を下げるため)」という目的とセットで理解を深めてください。
  2. 具体的な利用シーンを想定する 「このデータならどの尺度か?」「この予測にはどのアルゴリズムが最適か?」と、実務の課題に当てはめて考える訓練が有効です。
  3. 計算よりも「概念」を優先する 近年の試験傾向では、複雑な計算式を解くことよりも、統計量や評価指標が示す「意味」を正しく解釈する力が重視されています。
  4. シラバスのキーワードを網羅する 今回取り上げた赤字の用語は、出題の可能性が非常に高い項目です。公式の用語例を見直し、自分の言葉で説明できるかセルフチェックを行ってください。

基礎から応用まで、これらの概念はすべて繋がっています。一つひとつの用語を点ではなく線で結ぶことで、試験本番でも揺るがない実力が身につくはずです。応援しています。

セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。