大規模言語モデルの要約性能の評価指標の一覧について

1. 評価指標

大規模言語モデル(LLM)が生成する要約の品質を評価するためには、いくつかの指標が用いられます。これらの指標は、生成された要約が元のテキストとどれだけ一致しているか、またその意味がどれだけ正確に保持されているかを測るために重要です。以下では、よく使われる指標について、それぞれの特徴や目的を詳しく説明します。

2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

  • 要約評価で最も広く使われる指標の一つ。
  • ROUGE-1: 1-gram(一単語単位)で一致する部分を評価。
  • ROUGE-2: 2-gram(二単語のペア)で一致する部分を評価。
  • ROUGE-L: 最長共通部分列(LCS: Longest Common Subsequence)を評価。
  • 主に「再現率(Recall)」に焦点を当てており、要約が元のテキストからどれだけ情報を引き出しているかを測定します。
  • 長所: 単純で計算が速い。
  • 短所: 語順や文法の違いを完全には反映できない。

3. BLEU(Bilingual Evaluation Understudy)

  • 本来は機械翻訳の評価用に開発された指標。
  • N-gramの一致率を測定し、元のテキストと生成された要約の類似性を評価します。
  • 精度(Precision)に焦点を当てており、生成要約がどれだけ元のテキストに似ているかを測定します。
  • 長所: 機械翻訳や文生成の幅広い応用で信頼されている。
  • 短所: 要約のような情報抽出型のタスクには適さない場合がある(要約特有の「情報を圧縮する」性質を考慮しない)。

4. METEOR(Metric for Evaluation of Translation with Explicit ORdering)

  • BLEUの弱点を補うように設計された指標。
  • 同義語や語形変化(派生語)を考慮し、単語レベルの一致をより柔軟に評価します。

5. BERTScore

  • BERT(Bidirectional Encoder Representations from Transformers)を用いた意味ベースの評価。
  • トークンレベルで埋め込み(embedding)を比較し、元テキストと生成要約の意味的な類似性を測定。

6. QAEval(Question-Answering based Evaluation)

QAEvalは、要約の内容品質を評価する自動評価指標です。従来のROUGEのような単語の重複に依存せず、質問応答(QA)技術を活用して、要約が元の情報をどれだけ正確に伝えているかを測定します。

QAEvalは、Daniel Deutschらの論文「Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary」で詳しく紹介されています。この研究では、QAEvalが人間の評価と高い相関を持つことが示されています。

7. Human Evaluation(人間評価)

自動評価指標では捉えにくい文法の正確性、流暢性、意味の一貫性などを人間が評価。

PR