学習モデルを軽くする3つの基本：蒸留・枝刈り・量子化とは？

2025年7月31日 2025年7月31日山崎講師

山崎講師

こんにちは。ゆうせいです。

「モデルが重すぎてスマホに載せられない…」
「推論に時間がかかってサービスに使えない…」

そんなとき、どうしますか？

深層学習モデルの世界では、「軽量化（model compression）」という工夫がとても大事なんです！
とくにLLM（大規模言語モデル）のような超巨大なモデルを現実のデバイスで動かすには、軽くて速いモデルが必要になります。

そこで登場する3つの代表的な技術がこちら！

蒸留（Distillation）
枝刈り（Pruning）
量子化（Quantization）

これらは、それぞれアプローチが違いますが、最終的な目的は共通しています。
「モデルを小さく、速く、軽くすること！」

今回は、新人エンジニアの方でも理解しやすいように、それぞれの技術を例えを交えながら丁寧に解説していきます。

1. 蒸留（Distillation）とは？

一言でいうと：

「先生モデル」から「生徒モデル」に知識を伝えることで、小さくても賢いモデルを作る方法！

詳しく説明すると：

元の大きなモデル（教師モデル、teacher）を使って、小さなモデル（生徒モデル、student）を訓練します。
ただし、生徒はただの模倣ではありません。教師の「振る舞い」を学ぶことで、より深い学習をします。

例えるなら：

資料を読んでも分からないことを、先生がかみ砕いて教えてくれる塾のようなもの！

メリット・デメリット

メリット	デメリット
高い精度を維持しやすい	教師モデルが必要（学習コスト高）
小型モデルで高性能可能	実装にやや工夫が必要
推論が高速になる	教師の選び方で性能が左右される

2. 枝刈り（Pruning）とは？

一言でいうと：

「いらない重み・ノードを間引いてスリムにする」技術です！

詳しく説明すると：

訓練済みのモデルから、「ほとんど効果のない重み」や「使われないニューロン」を削除することで、計算量を削減します。

例えるなら：

枝が伸びすぎた木を、余分な枝を切って整える剪定（せんてい）のようなイメージです！

メリット・デメリット

メリット	デメリット
モデル構造をそのまま活かせる	精度が落ちることがある
計算量とパラメータを減らせる	実際のハードウェアでの高速化が難しい場合も
訓練後に適用できる	再訓練が必要な場合あり

図で理解しよう！

元のモデル        →        枝刈り後のモデル
 [●●●●]             →           [● ● ]
 [●●●●]             →           [● ● ]

不要なノード（●）や接続を取り除いて、モデルを細くします！

3. 量子化（Quantization）とは？

一言でいうと：

「使う数値をざっくりした表現に置き換えることで軽くする」方法です！

詳しく説明すると：

通常、モデルの重みや計算には32ビットの浮動小数点数（float32）が使われます。
量子化では、それを16ビット、8ビット、場合によっては4ビットや2ビットの整数（int）に変換します。

ちなみに量子コンピュータとは全く関係はありません。

例えるなら：

毎回高級レストランに行くのをやめて、ファストフードで同じカロリーを取るようなもの。
細かい味の違い（精度）はあるけど、コストがぐっと減る！

メリット・デメリット

メリット	デメリット
推論速度が大幅に向上	精度が落ちる可能性がある
メモリ使用量が減る	実装・ハードウェアの工夫が必要
電力効率が良い	量子化後の最適化が必要なことも

数式イメージ（量子化）

$\hat{w} = \text{round} \left( \frac{w - \text{min}}{\text{scale}} \right) \times \text{scale} + \text{min}$

「連続値の重み$w$」を、スケーリングして**整数に近い値$\hat{w}$**に変換しています。

3つの技術の比較表

手法	主な目的	適用タイミング	ハードウェア効果	難易度
蒸留	精度を保ったまま縮小	訓練時	高	やや高
枝刈り	不要な部分の削除	訓練後または中	中	中
量子化	数値の表現を簡略化	訓練後または中	非常に高	中

どれを使えばいいの？【指針】

初心者としては、以下のように進めると理解しやすいです！

まずは量子化（int8量子化）から触れてみよう！実装が比較的簡単。
蒸留は教師モデルを用意できる環境なら、ぜひ挑戦！応用が効きます。
枝刈りは精度と速度のバランスを見ながら使うと効果的。

最後に：これからの学び方

モデル軽量化は、ただの高速化テクニックではありません。
**「どのくらいの性能を、どのくらいのリソースで、どのデバイスで出すか」**を設計する力が問われます。

今後の学習には以下がおすすめです：

PyTorchのtorch.quantizationやHuggingFaceのoptimumライブラリを触る
蒸留モデル（DistilBERTなど）を使って小型化の体感を得る
Pruningのアルゴリズム（Magnitude Pruning、Structured Pruningなど）を学ぶ
実際に軽量化モデルをスマホやRaspberry Piなどにデプロイしてみる！

「動かないAIより、軽くて動くAI！」

軽量化の技術は、これからの実用AIに欠かせないスキルになります。
ぜひ楽しみながらマスターしていきましょう！

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師代表取締役

セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します！
この記事に間違い等ありましたらぜひお知らせください。

学習モデルを軽くする3つの基本：蒸留・枝刈り・量子化とは？

1. 蒸留（Distillation）とは？

一言でいうと：

詳しく説明すると：

例えるなら：

メリット・デメリット

2. 枝刈り（Pruning）とは？

一言でいうと：

詳しく説明すると：

例えるなら：

メリット・デメリット

図で理解しよう！

3. 量子化（Quantization）とは？

一言でいうと：

詳しく説明すると：

例えるなら：

メリット・デメリット

数式イメージ（量子化）

3つの技術の比較表

どれを使えばいいの？【指針】

最後に：これからの学び方

生成AI研修のおすすめメニュー

投稿者プロフィール

最新の投稿

新人エンジニアに解説！「年を取ると時間が早く感じる」あの現象の名前と理由とは？

【初心者でもわかる！KLダイバージェンスとは何か？】