【Transformers】LLMにおける文脈的なlogitの意味

ふゅか
ふゅか
ロジットって、確率を実数に変換するための関数だったよね?ロジスティック回帰とかで使った記憶がある!
はるか
はるか
うん、確率を取り扱う時によく出てくる。LLMでも少し違った意味で使われるけど。

1. ロジット(logit)とは?

ロジット(logit)は、統計や機械学習でよく使われる概念です。LLMにおける論文や本を読んでいると、ロジットという単語が出てきますが、このロジットは文脈によって意味が違います。

1.1. ロジットの基本的な定義

ロジットは、確率を実数に変換するための関数として定義されています。具体的には、確率 \(p\) に対してロジットは次の式で表されます。

$$\text{logit}(p) = \log\left( \frac{p}{1 - p} \right) = \log(p) - \log(1 - p)$$

この式は、確率値 を実数に変換する関数です。例えば、ロジスティック回帰では、このロジット関数を使って確率を実数に変換し、線形モデルで使える形にしています。

2. LLMにおけるロジットの意味

一方で、LLM(大規模言語モデル)における「ロジット」は、少し異なる文脈で使われています。

LLMは、次に出現するトークン(単語や文字)の確率を予測する際に、ソフトマックス関数というものを使って出力を確率に変換します。このソフトマックス関数に入力する前の、いわば「生のスコア」が「ロジット」と呼ばれています。

ふゅか
ふゅか
LLMでは入力系列のことをロジットって言うんだよね。ソフトマックスに入れる前のやつ!
はるか
はるか
そう。それが次のトークンの確率を決めるベースになる。
PR