更新:2024/10/09
【Transformers】LLMにおける文脈的なlogitの意味


ふゅか
ロジットって、確率を実数に変換するための関数だったよね?ロジスティック回帰とかで使った記憶がある!

はるか
うん、確率を取り扱う時によく出てくる。LLMでも少し違った意味で使われるけど。
1. ロジット(logit)とは?
ロジット(logit)は、統計や機械学習でよく使われる概念です。LLMにおける論文や本を読んでいると、ロジットという単語が出てきますが、このロジットは文脈によって意味が違います。
1.1. ロジットの基本的な定義
ロジットは、確率を実数に変換するための関数として定義されています。具体的には、確率 \(p\) に対してロジットは次の式で表されます。
$$\text{logit}(p) = \log\left( \frac{p}{1 - p} \right) = \log(p) - \log(1 - p)$$
この式は、確率値 を実数に変換する関数です。例えば、ロジスティック回帰では、このロジット関数を使って確率を実数に変換し、線形モデルで使える形にしています。
2. LLMにおけるロジットの意味
一方で、LLM(大規模言語モデル)における「ロジット」は、少し異なる文脈で使われています。
LLMは、次に出現するトークン(単語や文字)の確率を予測する際に、ソフトマックス関数というものを使って出力を確率に変換します。このソフトマックス関数に入力する前の、いわば「生のスコア」が「ロジット」と呼ばれています。

ふゅか
LLMでは入力系列のことをロジットって言うんだよね。ソフトマックスに入れる前のやつ!

はるか
そう。それが次のトークンの確率を決めるベースになる。
PR