更新:2024/09/17
scikit-learnのtoyデータセットの使い方!load_xxx()について


はるか
toyデータセットって知ってる?

ふゅか
うん、知ってる!scikit-learnに用意されている小さなデータセットだよね。
目次
1. toyデータセットとは
scikit-learnには、外部サイトからファイルをダウンロードする必要のないいくつかの小さな標準データセットが用意されています。これらのデータセットは、scikit-learnのアルゴリズムの学習やデモンストレーションに便利です。それぞれのデータセットは次のメソッドで呼び出すことができます。
load_iris()
: アヤメ(Iris)の分類のデータセットをロードし、返します。load_diabetes()
: 糖尿病の回帰のデータセットをロードし、返します。load_digits()
: 手書き数字の分類のデータセットをロードし、返します。load_linnerud()
: Linnerudの運動データセットをロードし、返します。load_wine()
: ワインの分類のデータセットをロードし、返します。load_breast_cancer()
: 乳がんの分類のデータセットをロードし、返します。
2. それぞれのデータセット
2.1. アヤメのデータセット
- 特徴量の情報:
- がく片の長さ(cm)
- がく片の幅(cm)
- 花弁の長さ(cm)
- 花弁の幅(cm)
- クラス: Iris-Setosa, Iris-Versicolour, Iris-Virginica
- 呼び出し:
load_iris()

ふゅか
アヤメのデータセットについて説明するね!これは、アヤメの花の特徴量で3つの種類に分類されてるの。がく片の長さや幅、花弁の長さと幅が特徴量なんだ。

はるか
その分類に使うクラスはIris-Setosa、Iris-Versicolour、Iris-Virginica。
アヤメのデータセットのデータを読み込む例は次のようになります。
from sklearn.datasets import load_iris
data=load_iris()
X=data.data # 特徴量
y=data.target # ターゲットラベル
2.2. 糖尿病のデータセット
- 特徴量の情報:
- 年齢
- 性別
- 体格指数(BMI)
- 平均血圧
- 血清測定値(6種類)
- ターゲット: 1年後の疾患進行度
- 呼び出し:
load_diabetes()
糖尿病のデータセットのデータを読み込む例は次のようになります。
from sklearn.datasets import load_diabetes
data=load_diabetes()
X=data.data # 特徴量
y=data.target # ターゲットラベル
2.3. 手書き数字認識のデータセット
- 特徴量の情報: 8×8ピクセルの整数画像(範囲0..16)
- クラス: 0から9の数字
- 呼び出し:
load_digits()

はるか
8×8ピクセルの整数画像から数字を認識する。

ふゅか
うん、
load_digits()
でロードできるんだ!0から9までの数字を認識するためのデータセットだよ。手書き数字認識のデータセットのデータを読み込む例は次のようになります。
from sklearn.datasets import load_digits
data=load_digits()
X=data.data # 特徴量
y=data.target # ターゲットラベル
2.4. 運動のデータセット
- 特徴量の情報:
- 運動: 懸垂、腹筋、ジャンプ
- 生理学的: 体重、ウエスト、脈拍
- 呼び出し:
load_linnerud()
運動のデータセットのデータを読み込む例は次のようになります。
from sklearn.datasets import load_linnerud
data=load_linnerud()
X=data.data # 特徴量
y=data.target # ターゲットラベル
2.5. ワインのデータセット
- 特徴量の情報:
- アルコール
- マグネシウム
- フラボノイド
- 他の化学成分
- クラス: 3つの異なるワイン種
- 呼び出し:
load_wine()

はるか
ワインのデータセットもあるね。アルコールやマグネシウム、フラボノイドなどの化学成分が特徴量。

ふゅか
うん、
load_wine()
でロードできるよ!3つの異なるワイン種を分類するためのデータセットだね。ワインのデータセットのデータを読み込む例は次のようになります。
from sklearn.datasets import load_wine
data=load_wine()
X=data.data # 特徴量
y=data.target # ターゲットラベル
2.6. 乳がんのデータセット
- 特徴量の情報:
- 半径(平均、標準誤差、最悪値)
- テクスチャ
- 周囲長
- 面積
- 滑らかさ
- 他の形状特徴
- クラス: 悪性と良性
- 呼び出し:
load_breast_cancer()
乳がんのデータセットのデータを読み込む例は次のようになります。
from sklearn.datasets import load_breast_cancer
data=load_breast_cancer()
X=data.data # 特徴量
y=data.target # ターゲットラベル
PR