更新:2024/09/17

scikit-learnのtoyデータセットの使い方!load_xxx()について

はるか
はるか
toyデータセットって知ってる?
ふゅか
ふゅか
うん、知ってる!scikit-learnに用意されている小さなデータセットだよね。

1. toyデータセットとは

scikit-learnには、外部サイトからファイルをダウンロードする必要のないいくつかの小さな標準データセットが用意されています。これらのデータセットは、scikit-learnのアルゴリズムの学習やデモンストレーションに便利です。それぞれのデータセットは次のメソッドで呼び出すことができます。

  • load_iris(): アヤメ(Iris)の分類のデータセットをロードし、返します。
  • load_diabetes(): 糖尿病の回帰のデータセットをロードし、返します。
  • load_digits(): 手書き数字の分類のデータセットをロードし、返します。
  • load_linnerud(): Linnerudの運動データセットをロードし、返します。
  • load_wine(): ワインの分類のデータセットをロードし、返します。
  • load_breast_cancer(): 乳がんの分類のデータセットをロードし、返します。

2. それぞれのデータセット

2.1. アヤメのデータセット

  • 特徴量の情報:
    • がく片の長さ(cm)
    • がく片の幅(cm)
    • 花弁の長さ(cm)
    • 花弁の幅(cm)
  • クラス: Iris-Setosa, Iris-Versicolour, Iris-Virginica
  • 呼び出し: load_iris()
ふゅか
ふゅか
アヤメのデータセットについて説明するね!これは、アヤメの花の特徴量で3つの種類に分類されてるの。がく片の長さや幅、花弁の長さと幅が特徴量なんだ。
はるか
はるか
その分類に使うクラスはIris-Setosa、Iris-Versicolour、Iris-Virginica。

アヤメのデータセットのデータを読み込む例は次のようになります。

from sklearn.datasets import load_iris
data=load_iris()

X=data.data # 特徴量
y=data.target # ターゲットラベル

2.2. 糖尿病のデータセット

  • 特徴量の情報:
    • 年齢
    • 性別
    • 体格指数(BMI)
    • 平均血圧
    • 血清測定値(6種類)
  • ターゲット: 1年後の疾患進行度
  • 呼び出し: load_diabetes()

糖尿病のデータセットのデータを読み込む例は次のようになります。

from sklearn.datasets import load_diabetes
data=load_diabetes()

X=data.data # 特徴量
y=data.target # ターゲットラベル

2.3. 手書き数字認識のデータセット

  • 特徴量の情報: 8×8ピクセルの整数画像(範囲0..16)
  • クラス: 0から9の数字
  • 呼び出し: load_digits()
はるか
はるか
8×8ピクセルの整数画像から数字を認識する。
ふゅか
ふゅか
うん、load_digits()でロードできるんだ!0から9までの数字を認識するためのデータセットだよ。

手書き数字認識のデータセットのデータを読み込む例は次のようになります。

from sklearn.datasets import load_digits
data=load_digits()

X=data.data # 特徴量
y=data.target # ターゲットラベル

2.4. 運動のデータセット

  • 特徴量の情報:
    • 運動: 懸垂、腹筋、ジャンプ
    • 生理学的: 体重、ウエスト、脈拍
  • 呼び出し: load_linnerud()

運動のデータセットのデータを読み込む例は次のようになります。

from sklearn.datasets import load_linnerud
data=load_linnerud()

X=data.data # 特徴量
y=data.target # ターゲットラベル

2.5. ワインのデータセット

  • 特徴量の情報:
    • アルコール
    • マグネシウム
    • フラボノイド
    • 他の化学成分
  • クラス: 3つの異なるワイン種
  • 呼び出し: load_wine()
はるか
はるか
ワインのデータセットもあるね。アルコールやマグネシウム、フラボノイドなどの化学成分が特徴量。
ふゅか
ふゅか
うん、load_wine()でロードできるよ!3つの異なるワイン種を分類するためのデータセットだね。

ワインのデータセットのデータを読み込む例は次のようになります。

from sklearn.datasets import load_wine
data=load_wine()

X=data.data # 特徴量
y=data.target # ターゲットラベル

2.6. 乳がんのデータセット

  • 特徴量の情報:
    • 半径(平均、標準誤差、最悪値)
    • テクスチャ
    • 周囲長
    • 面積
    • 滑らかさ
    • 他の形状特徴
  • クラス: 悪性と良性
  • 呼び出し: load_breast_cancer()

乳がんのデータセットのデータを読み込む例は次のようになります。

from sklearn.datasets import load_breast_cancer
data=load_breast_cancer()

X=data.data # 特徴量
y=data.target # ターゲットラベル
PR