【Python/scikit-learn】on-hotエンコーディングの解説とプログラミング例

2024/10/12

Scikit-learnでのone-hotエンコーディングはカテゴリ変数を機械学習モデルに適した形式に変換するために用いられます。カテゴリデータを数値に変換する際、単純なラベルエンコーディングでは、数値の大小に意味が生まれるため問題がある場合があります。そこで、各カテゴリをバイナリベクトルで表すone-hotエンコーディングが使われます。

Scikit-learnではOneHotEncoderクラスを使ってこのエンコーディングを行います。

import numpy as np
from sklearn.preprocessing import OneHotEncoder

# サンプルのカテゴリデータ（例えば動物の種類）
data = np.array([['cat'], ['dog'], ['rabbit'], ['cat'], ['dog']])

# OneHotEncoderのインスタンスを作成
encoder = OneHotEncoder(sparse_output=False)  # sparse=Falseで密な行列を出力

# データをエンコード
encoded_data = encoder.fit_transform(data)

print("元のデータ:")
print(data)
print("\n")
print("One-Hotエンコード後のデータ:")
print(encoded_data)

出力結果はこちら。各カテゴリ（例: cat, dog, rabbit）がそれぞれ一意のベクトルで表されます。

元のデータ:
[['cat']
 ['dog']
 ['rabbit']
 ['cat']
 ['dog']]

One-Hotエンコード後のデータ:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]

- Python

: 【Python】Numpyの乱数の基本

randomモジュールで乱数を発生させます。他の言語に比べて多彩な機能があります …

: 【Python】スクリーンショットを撮る方法（Windows編）

Pythonを使えば、PC画面のスクリーンショットを簡単に撮ることができます。特 …

: 【Python】フォルダ内の画像ファイル名を一括変更する方法

Pythonを使って、指定したフォルダ内の.jpg画像ファイル名をファイル名順に …

: Pythonで文字列の分割（split関数）

Pythonで文字列を分割する場合はsplit関数を使います。以下は「,」（カン …

: 【Python】Open Exchange Rates APIでドル円レートを取得する方法

為替レートAPIを活用すればPythonで最新のドル円レートを手軽に取得できます …

PREV: 【Python/scikit-learn】データの欠損を補完する
NEXT: 【Python/scikit-learn】特徴量の正規化についての解説とプログラミング例