Python を使って機械学習を行う(VS Code使用)

以下では、Python を使って機械学習を行うために Visual Studio Code(VS Code)の環境をセットアップする手順を示します。

ツールや環境によって細部は変わることがありますが、Windows 環境を想定した一般的な流れをまとめています。

macOS や Linux でも基本的に同様の手順で進められます。


1. Python のインストール

  1. Python ダウンロードサイト
    公式サイト(https://www.python.org/downloads/)へアクセスし、最新の安定版(例:Python 3.x系)をダウンロードします。
  2. インストール時のオプション設定
    • “Add Python x.x to PATH” にチェックを入れる
      もしくはパスを手動で通す必要があります。
    • そのほかは標準の設定でインストール可能です。
  3. インストール確認
    コマンドプロンプト(またはターミナル)を開き、以下のコマンドでインストールを確認します。 python --version バージョンが表示されればインストール成功です。

2. Visual Studio Code のインストール

  1. VS Code ダウンロードサイト
    公式サイト(https://code.visualstudio.com/)からインストーラーをダウンロードします。
  2. インストール時のオプション設定
    • “Add to PATH” にチェックを入れる
    • “Register Code as an editor for supported file types” などはお好みで。
  3. 初回起動
    インストール完了後、VS Code を起動します。

3. Python 関連拡張機能のインストール

VS Code 上で Python を快適に使用するために、以下の拡張機能をインストールします。

  1. Python (Microsoft 製)
    • もっとも基本的な拡張機能です。
    • Python の構文ハイライト、インテリセンス(コード補完)、Lint(静的解析)などを提供します。
    • VS Code 左のサイドバーにある拡張機能(Extensions)アイコンをクリックし、「Python」と検索して「Python (by Microsoft)」をインストールします。
  2. Jupyter (Microsoft 製)
    • VS Code 内で Jupyter Notebook の機能を使えるようにする拡張機能です。
    • 機械学習でよく使われる Jupyter Notebook を、VS Code 上で開発・実行できます。
  3. (任意) その他の拡張機能
    • Pylance (Python 用の強力な言語サーバー)
    • GitLens (Git 操作を強化)
    • Remote - WSL / Remote - Containers (WSL 上や Docker コンテナ上で開発する場合)

これらを拡張機能マーケットプレイスからインストールしてください。


4. 仮想環境の作成(推奨)

機械学習のプロジェクトでは、依存関係の競合を避けるためにプロジェクトごとに仮想環境を作成することが推奨されます。Python の標準ライブラリ venv や、Anaconda/Miniconda などのディストリビューションを使用する方法があります。

4-1. venv を使う場合

  1. 仮想環境ディレクトリの作成
    プロジェクトフォルダ(例:my_ml_project/)を作成し、ターミナルで移動します。 cd path/to/my_ml_project
  2. venv の作成 python -m venv venv
  3. 仮想環境の有効化
    • Windows: venv\Scripts\activate
    • macOS/Linux: source venv/bin/activate
  4. Python パッケージのインストール pip install numpy pandas scikit-learn matplotlib 例として、機械学習でよく使うライブラリをインストールしています。必要に応じて TensorFlow、PyTorch、LightGBM などを追加します。
  5. VS Code で仮想環境を認識させる
    • VS Code 左下にある “Python バージョン” が表示されている部分(ステータスバー)をクリックし、「Python Interpreter」を選択する画面を表示します。
    • 先ほど作成した仮想環境(./venv/bin/python または .\venv\Scripts\python)を選択します。
    • 選択後、新しいターミナルを開くとその仮想環境が有効になっているはずです。

4-2. Anaconda/Miniconda を使う場合

  1. Anaconda/Miniconda のインストール
  2. conda 環境を作成 conda create -n my_ml_env python=3.9
  3. conda 環境を有効化 conda activate my_ml_env
  4. ライブラリインストール conda install numpy pandas scikit-learn matplotlib
  5. VS Code で環境を選択
    • VS Code で “Python Interpreter” を選択し、my_ml_env を選択する。

5. Jupyter Notebook 環境の確認

機械学習では Jupyter Notebook を使って探索的データ分析や可視化を行うことが多いです。

  1. VS Code 上で新規ノートブックを作成
    • 「ファイル」→「新しいファイル」→右下に「.py」ではなく「.ipynb」を選択すると、Jupyter Notebook モードになります。
    • または、Command Palette(Windows: Ctrl+Shift+P / macOS: Cmd+Shift+P)で “Jupyter: Create New Blank Notebook” を選択します。
  2. カーネル(Interpreter)の選択
    • 上部バーにある “Select Kernel” やステータスバーをクリックして、使用したい Python 環境を選択します。
  3. セルを実行して動作確認
    • print("Hello, Jupyter!") など簡単なコードを書いて実行し、問題なく動作すればOKです。

6. 機械学習プロジェクトのサンプル実行

  1. サンプルコード
    以下のようなシンプルなサンプルコードを sample_ml.py あるいは sample_ml.ipynb に記述します。
import numpy as np
from sklearn.linear_model import LinearRegression

# ダミーデータ作成
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 5, 4, 5])

# モデルの作成と学習
model = LinearRegression()
model.fit(X, y)

# 予測
test_data = np.array([[6]])
prediction = model.predict(test_data)

print(f"Input: {test_data[0][0]}, Predicted: {prediction[0]:.2f}")
  1. VS Code ターミナルで実行(.pyファイルの場合) python sample_ml.py あるいはエディタ右上の実行ボタンから実行する。
python sample_ml.py
  1. Notebook (.ipynbファイル) で実行
    • 各セルごとに実行アイコンをクリックして結果を表示。

7. Git 連携(任意)

機械学習プロジェクトのソースコードや Jupyter Notebook をバージョン管理する場合には、Git のインストールとセットアップが便利です。

  1. Git インストール
  2. VS Code 上での Git 操作
    • サイドバーの Source Control (Git) アイコンから変更をコミットしたりプッシュできます。
    • リモートリポジトリ(GitHub, GitLab など)と連携する場合は GUI でサインインして設定可能。

8. より快適に開発するために

  • コード整形(フォーマッター): blackautopep8 をインストールし、VS Code の設定で "python.formatting.provider": "black" のように設定すると自動整形が可能です。
  • Lintツール: flake8pylint を活用して、構文エラーやスタイル違反を自動検出。
  • 拡張機能同期: 複数のマシンを使う場合、VS Code の拡張機能同期機能をオンにすると便利です。

まとめ

  1. Python をインストールpython --version で確認
  2. VS Code をインストール
  3. Python 拡張機能(Python & Jupyter)をインストール
  4. 仮想環境(venv または conda)を作成&選択
  5. 必要なライブラリ(numpy, pandas, scikit-learn, matplotlib など)をインストール
  6. VS Code でコード実行・Notebook 実行を確認

これらのステップを踏むことで、VS Code 上で Python を使った機械学習開発環境が整います。ぜひ一度サンプルコードを実行し、正しく動作することを確認してみてください。

1. Pythonについて最低限知っておきたいこと

Python は汎用プログラミング言語として、機械学習やデータ解析、Web 開発など幅広い分野で利用されています。

  • シンプルで読みやすい文法: インデント(字下げ)によってブロックを表現する。
  • 豊富なライブラリ: NumPy、pandas、scikit-learn、Matplotlib など、データ処理・機械学習に特化したライブラリが充実している。
  • コミュニティが大きい: 問題が発生した際に検索で解決策を見つけやすく、質問サイトやフォーラムも活発。

2. データ型と変数

Python でプログラムを書くうえで、まずは変数やデータ型の基本を理解する必要があります。

2.1 データ型の種類

数値型: int(整数)、float(浮動小数点数)

x = 10       # int
y = 3.14     # float

文字列型: str(文字列)

name = "Taro"

ブール型: bool(真偽値、True or False

is_ready = True

2.2 変数の宣言と代入

Python では型指定が不要で、同じ変数名に違う型を代入することもできます。

a = 5
a = "Hello"

上記のように最初は整数を代入しても、その後文字列を入れることも可能です。


3. 制御構文

プログラムの流れを制御する文法です。代表的なものとして if 文や for 文、while 文が挙げられます。

3.1 if 文

x = 10
if x > 5:
    print("xは5より大きい")
elif x == 5:
    print("xはちょうど5")
else:
    print("xは5より小さい")

3.2 for 文

for i in range(5):
    print(i)  # 0, 1, 2, 3, 4 を順番に出力

3.3 while 文

count = 0
while count < 5:
    print(count)
    count += 1


4. リストと辞書

Python のデータ構造の中でも代表的なのが リスト辞書 です。

4.1 リスト

複数の要素を順番に扱うときに使用する。

[] で表記し、0番目から要素を参照できます。

numbers = [1, 2, 3, 4, 5]
print(numbers[0])  # 1
numbers.append(6)  # [1, 2, 3, 4, 5, 6]

4.2 辞書

キーと値のペアを扱うときに使用する。

{} で表記し、キーから値を取り出す。

person = {"name": "Taro", "age": 20}
print(person["name"])  # Taro
person["age"] = 21     # ageの値を21に更新


5. 関数

同じ処理を何度も書かなくて済むよう、処理をひとまとまりにして再利用できるようにする仕組みです。

def greet(name):
    print(f"Hello, {name}!")

greet("Taro")  # Hello, Taro!

関数名や引数名は分かりやすい名前を心がける。

return 文で処理結果を返す場合もある。

def add(a, b):
    return a + b

result = add(3, 4)  # 7


6. その他

6.1 モジュールとパッケージ

  • モジュール: Python ファイル(.py)一つひとつのこと。
  • パッケージ: 複数のモジュールをまとめたもの。
    標準ライブラリや外部ライブラリを活用して便利な機能を使うことが多いです。

6.2 pip

外部ライブラリのインストールに使用するコマンドです。

pip install numpy

requirements.txt ファイルに必要なライブラリをまとめておくと、一括インストールが可能です。


7. 基礎演習

ここでは Python の基礎を確認するための簡単な演習例を挙げます。

  1. 演習1
    • リスト numbers = [10, 20, 30, 40, 50] の要素を合計する関数 sum_list() を作成し、合計値を返す。
  2. 演習2
    • range(1, 11) を使って 1 から 10 までの整数を順番に出力する for 文を作成する。
  3. 演習3
    • キーが "apple", "banana", "orange"、値がそれぞれ 100, 120, 150 の辞書を作成し、キーと値を一行ずつ出力する。
  4. 演習4
    • def greet(name) を作成し、引数が "Python" のときにだけ「Welcome to Python World!」と表示し、その他は通常の挨拶で表示するようにする。

8. プログラミングに特有のプロンプト7選

プログラミングを学習・実行する際に、しばしば目にする・利用する「プロンプト」や「入力待ち画面」をいくつかピックアップして紹介します。

  1. OSのコマンドプロンプト / ターミナル
    • Windows なら cmd、macOS/Linux ならターミナル。pip installpython my_script.py などを入力する。
  2. Pythonインタラクティブシェル (REPL)
    • ターミナルで python と入力すると起動。対話形式でコードを実行できる。
  3. IPython
    • pip install ipython でインストール可能。より便利な機能を備えた対話シェル。
  4. Jupyter Notebook / JupyterLab
    • Webブラウザ上でセル単位にコードを実行できる環境。データ分析や機械学習で多用。
  5. VS Code のターミナル
    • VS Code にはターミナル機能が内蔵されており、エディタと同時に操作できる。
  6. Git Bash (Windows)
    • Windows 環境でも Linux ライクなコマンドラインを使うためのツール。Git をインストールすると一緒に入る。
  7. Dockerコンテナ内のターミナル
    • Docker コンテナに入って、仮想環境上でコマンドを実行するときのプロンプト。

9. 機械学習の概要

機械学習は、データから規則やパターンを学習し、予測や分類などを行う手法です。

  • 教師あり学習: 正解ラベル付きのデータから学習(回帰・分類)
  • 教師なし学習: ラベルなしのデータから特徴やパターンを探索(クラスタリング、次元削減など)
  • 深層学習 (Deep Learning): ニューラルネットワークを大規模に使う手法

機械学習は「大量のデータを解析パターンを学習未知のデータに対して予測」という流れで行われます。


10. Pythonで機械学習を体験する(実践編)

ここでは実際に Python の代表的な機械学習ライブラリである scikit-learn を使い、データの扱いからモデル作成・予測の一連の流れを体験します。

10.1 環境構築

  1. Python のインストール
  2. 仮想環境の作成(推奨)
python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows
  1. ライブラリのインストール
pip install numpy pandas scikit-learn matplotlib

10.2 データの扱い方

例として、NumPy で配列を扱い、scikit-learn で学習用データとして使う流れを示します。

import numpy as np
from sklearn.linear_model import LinearRegression

# ダミーデータ
# X: 1次元の特徴量, y: ターゲット(回帰の場合)
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([3, 6, 9, 12, 15])

上記のように 2次元配列[[1],[2],[3]...])の形にしておく必要がある点に注意。

10.3 簡単なモデルの作成と予測

import numpy as np
from sklearn.linear_model import LinearRegression

# ダミーデータ
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([3, 6, 9, 12, 15])  # y = 3*x のイメージ

# モデル作成
model = LinearRegression()
model.fit(X, y)  # 学習(fit)

# 予測
test_data = np.array([[10]])
prediction = model.predict(test_data)
print(f"予測値: {prediction[0]:.2f}")

fit: 学習データ (X, y) をもとにモデルを学習

predict: 学習済みモデルに新しいデータを与えて予測を行う

10.4 結果の評価と可視化(例)

import matplotlib.pyplot as plt

# 予測ラインを描画
X_plot = np.linspace(0, 10, 100).reshape(-1, 1)  # 0~10を100分割
y_plot = model.predict(X_plot)

plt.scatter(X, y, color="blue", label="Data")
plt.plot(X_plot, y_plot, color="red", label="Model")
plt.legend()
plt.show()

グラフで学習データ(散布図)と回帰直線を重ねて表示し、どのようなモデルが得られたかを視覚的に確認します。


11. まとめ

  • Python の基本文法: 変数・データ型、制御構文、リストと辞書、関数などを押さえておくとスムーズに機械学習ライブラリを使える。
  • 機械学習ライブラリ: scikit-learn を中心に、NumPy や pandas と組み合わせて使うことが多い。
  • 学習の流れ: データの読み込み → データの前処理 → モデル作成 → 学習 (fit) → 予測 (predict) → 評価 (可視化やスコア計算)。
  • プロジェクト構成: 仮想環境を活用し、ライブラリのバージョン管理などを徹底することで、開発環境の混乱を防ぐ。
  • 次のステップ: より実践的なデータセット(例: CSVファイル、Kaggle データなど)を扱い、前処理(欠損値処理や特徴量エンジニアリング)やモデルの精度向上に挑戦してみる。

このテキストを参考に、実際の研修や学習の場では 演習問題を追加 したり、本格的なデータセット を使ってモデルを作成するなど、ステップアップしていただければと思います。Python の基礎を理解したうえで、データ解析や機械学習のプロセスを一通り体験することが、実践的なスキル習得への近道です。

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。