【機械学習】教師あり学習とは?分類と回帰問題について

ふゅか
ふゅか
教師あり学習って、データを使ってモデルを賢くする方法なんだよ!例えば、メールがスパムかどうかを自動で判断するために、たくさんの過去のメールデータを使ってモデルに学習させるの!
はるか
はるか
そう。データにラベルがついてるから、正解を教えながら学習するって感じ。入力と出力の関係を学ぶ。

1. 教師あり学習

教師あり学習(Supervised Learning)は、機械学習の一つの方法で、ラベル付きデータを用いてモデルを学習させる手法です。ラベル付きデータとは、各データポイントに対してその「正解」(目的変数やターゲット)が与えられているデータのことです。モデルは、このデータをもとに、入力と出力の関係を学習し、新しいデータに対して適切な予測を行えるようになります。

2. 教師あり学習の分類

教師あり学習には、主に2つの問題があります。

2.1. 回帰問題

連続した数値を予測する問題です。例えば、家の面積に基づいて家の価格を予測する場合や、ある企業の株価を予測する場合が該当します。

例: 線形回帰、リッジ回帰、Lasso回帰など。

2.2. 分類問題

データを離散的なカテゴリに分類する問題です。例えば、あるメールがスパムかスパムでないかを判定する場合、画像の中の動物が猫か犬かを分類する場合などが該当します。

例: ロジスティック回帰、サポートベクターマシン(SVM)、決定木、ランダムフォレストなど。

3. 教師あり学習の例

3.1. 画像認識

ある画像に写っている対象が何であるかをラベルとして与え、モデルに画像を分類させます。例として、手書き数字の画像データセット「MNIST」を使い、数字を認識させるモデルが挙げられます。

3.2. スパムメール分類

メールの内容(特徴量)に基づいて、そのメールがスパムかどうかを判別するモデルを作成します。過去のスパムメールのデータを使ってモデルを学習させ、未来のスパムメールを自動で分類します。

3.3. 医療診断

患者の健康データに基づいて、ある病気にかかっているかどうかを予測するモデルを作成します。患者の年齢、性別、体温、血圧などの特徴量に基づいて、病気かどうかを判定します。

4. 教師あり学習の流れ

ふゅか
ふゅか
教師あり学習って、データを使ってモデルが学習する仕組みなのよね!最初に、データの入力 \(X\) と正解ラベル \(Y\) があって、それを元にモデルを作るんだって!
はるか
はるか
うん。モデルは入力データとラベルの関係を学ぶ。関数 \( f \) で表されるよ。

4.1. モデル構築

教師あり学習は、入力データ \( X \) とそれに対応する正解ラベル \( Y \) の関係を学習するモデルを作成することが目的です。具体的には、入力データと正解ラベルのペア

$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$

を使って、モデルを訓練します。このモデルは、関数 \( f \) として表され、次のように表現されます。

\[ f(x_i) = \hat{y_i} \]

ここで、\( f \) はモデルが学習した関数であり、入力データ \( x_i \) を基にして予測値 \( \hat{y_i} \) を出力します。つまり、この関数 \( f \) によって、未知のデータに対しても予測を行うことができるのです。

4.2. 損失関数(モデルの評価)

モデルの性能を評価するためには、予測結果 \( \hat{y_i} \) と実際の正解ラベル \( y_i \) との差を測る必要があります。これを評価するために用いるのが「損失関数」です。

例えば、回帰問題では、平均二乗誤差(MSE)がよく使われます。これは、次の式で表されます。

\[ \text{MSE} = \frac{1}{m} \sum_{i=1}^{m} (f(x_i) - y_i)^2 \]

ここで、\( m \) はデータのサンプル数を表します。MSEは、予測値と実際の値との差が大きくなるほど、その値も大きくなります。

一方、分類問題では「交差エントロピー(cross entropy)」という損失関数がよく使用されます。交差エントロピーは、正しいクラスに対する予測確率が高いほど損失が小さくなる指標です。例えば、2クラス分類問題における交差エントロピーは次のように計算されます。

\[ \text{Cross Entropy} = -\frac{1}{m} \sum_{i=1}^{m} \left( y_i \log(\hat{y_i}) + (1 - y_i) \log(1 - \hat{y_i}) \right) \]

多クラス分類問題においても、交差エントロピーは拡張されて使われます。この場合、損失は各クラスに対する予測確率と正解ラベルの確率分布との差をすべて考慮して計算されます。

PR