順序は重要:複数選択式タスクにおける LLM の感度評価

大規模言語モデル(LLM)が複数選択式質問(MCQ)タスクにおいて、選択肢の順序と性能の変動にどのように関係するかを探ります。綿密な分析の結果、LLMは解答の順序に大きく影響を受け、ベンチマークによっては最大75%の性能変動が生じることを明らかにしました。

大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて優れた能力を発揮しています。しかし、これまでの研究では、LLMがプロンプトの表現方法やフューショット学習のデモンストレーションの選択、さらにはその順序に対して敏感であることが示されており、公平な評価を行う上での課題となっています。LLMの性能が向上するにつれ、これらの制約を理解し、克服することがますます重要になっています。

本研究では、LLMの推論能力や事実検索能力を評価するためによく用いられる複数選択式質問(MCQ)タスクにおける頑健性に着目します。この文脈において、LLMがMCQの選択肢の順序に対してどの程度の感度を示すのか、その感度にはどのような要因が影響を与えているのか、そして選択肢の順序に対する感度を低減し頑健性を向上させる方法があるのか、という三つの研究課題に取り組みます。本研究を通じて、LLMは選択肢の順序に対して非常に敏感であり、その感度を容易に解決することが難しいことを明らかにします。

MCQタスクにおけるLLMの選択肢順序への感度

本研究では、最先端の複数のLLMを用いて、5つの異なるMCQベンチマークに対する評価を行います。具体的には、選択肢の順序を変更した際にLLMの予測がどのように変化するかを観察し、その影響を分析します。

図1. GPT-4の選択肢の並び替えに対する感度:選択肢の順序を変更した際、GPT-4の予測が「鶏小屋(hen house)」から「寝室の窓の外(outside of the bedroom window)」に変化しました(例はCSQAデータセットより)。

LLMの感度を測定するために、選択肢の順序を並び替えた際の最小性能と最大性能の差を計算しました。本研究では、以下の主要な発見が得られました。

(1)GPT-4は、他のLLMと比較して、選択肢の順序に対する感度の差が大幅に小さいことが確認されました。
(2)GPT-4は90%を超える高い精度を示しましたが、それでも13.1%の感度の差が見られ、選択肢の順序の変更が高性能なモデルにも影響を及ぼすことが明らかになりました。
(3)選択肢の順序に対する感度は、モデル全体の性能と完全には相関せず、他の要因が影響している可能性が示唆されました。
(4)MCQの分野や選択肢の数はモデルの性能に影響を与えますが、選択肢の順序に対する感度との明確な相関は見られませんでした。

表1: ゼロショットにおける選択肢の順序への感度:すべてのLLMは、さまざまなベンチマークにおいて、選択肢の順序に対して顕著な感度を示しました。

フューショット設定におけるデモンストレーションは感度を解決できるのか?

結論としては解決できません。質問のベクトル表現のユークリッド距離を計算し、最も類似したインスタンスをデモンストレーションとして選択しました。その結果を以下の図に示し、各ケースの感度の差を誤差バーで可視化しました。

得られた結果から、いくつかの重要な観察ができます。まず、フューショット設定でデモンストレーションを増やしても、感度の差は一貫して大きいままでした。次に、モデルの性能が向上するにつれて、感度の差は縮小する傾向が見られました。しかし、デモンストレーションを追加することが必ずしも感度の差を減少させるわけではありません。この結果は、デモンストレーションが頑健性を若干向上させる可能性があるものの、LLMの選択肢の順序に対する感度を完全に解消するものではないことを示しています。

図2: フューショット設定における順序感度:誤差バーは、オラクルによる選択肢の並び替えを適用した場合に達成可能な最小および最大の精度の範囲を示しています。本研究から得られた主な観察結果は次のとおりです。(1)フューショット設定においても、選択肢の順序に対する感度の差は依然として大きいままでした。(2)モデルの性能が向上するにつれて、感度の差は縮小する傾向が見られました。(3)デモンストレーションの数を増やしても、必ずしも感度の差が減少するわけではありませんでした。

なぜLLMは選択肢の順序に対して感度を示すのか?

選択肢の順序を変更することでLLMの予測が変化した事例を分析した結果、以下の仮説を提案します。LLMのMCQにおける感度は、次の二つの要因によって生じると考えられます。

(1)最上位の選択肢に対するLLMの不確実性により、正解を確実に選択できないこと。
(2)位置バイアスにより、特定の位置にある選択肢を優先してしまうこと。

これらの影響を実験的に検証し、不確実性が感度に与える影響を示します。まず、MCQタスクにおいてLLMの感度の差が、モデルのエラー率と強い相関を持つことを確認しました。

図3: 感度の差とエラー率の相関:図3は、GPT-4とInstructGPTにおける複数選択式質問(MCQ)タスクの感度の差とエラー率の相関を示しています(各点は、LLMの特定のベンチマークにおけるパフォーマンスを表します)。

この相関をさらに検証するために、ログ確率とLLM自身による信頼度の推定を用いた分析を行いました。また、位置バイアスがLLMの順序感度に与える影響を調査するために、上位の選択肢を元の順序のまま保持し、それ以外の選択肢を削除する実験を行いました。その結果、LLMのパフォーマンスはほぼ変わらないか、わずかに向上または低下する傾向が見られました。この観察結果は、LLMの順序感度に位置バイアスが影響していることを示唆しています。

さらに、選択肢の配置パターンによってモデルの位置バイアスが強まる場合と弱まる場合があることを特定しました。バイアスを低減するには、上位2つの選択肢を互いに近い位置に配置することが有効であり、逆にバイアスを強めるには、それらの選択肢をできるだけ離して配置するのが効果的であることがわかりました。

MCQタスクにおけるLLMのキャリブレーション

LLMが選択肢の順序に対して感度を示すことが明らかになった今、次の課題はこの感度をどのように抑えるかです。本研究では、LLMの予測をキャリブレーションすることを1つの解決策として検討しました。そのために、以下の2つのキャリブレーション戦略を採用しました。

(1)多数決方式: 選択肢の順序をランダムに10回並び替え、それぞれの予測結果から多数決を取る方法。
(2)多重証拠キャリブレーション(MEC): 予測を行う前にLLMに推論プロセスを説明させる方法。

表2: キャリブレーション手法がLLMのパフォーマンスに与える影響

これら2つのキャリブレーション手法を適用することで、さまざまなモデルやベンチマークにおいて最大8パーセントポイントの性能向上が確認されました。ただし、MECの影響は多数決方式とは異なり、MCQタスクに対する適用の適切性についてさらなる検討が必要であることが示されました。

まとめと今後の展望

本研究では、大規模言語モデル(LLM)が複数選択式質問(MCQ)タスクにおいて選択肢の順序に対して感度を示すことを明らかにしました。さらに、調査を進める中で、LLMは複数の要素を含む他のタスク、例えば異常単語検出、リストのソート、文書のランキングなどにおいても同様の感度を示すことを確認しました。
さまざまな実験を通じて本研究の仮説を検証しましたが、LLMの順序感度の根本的な原因をより深く理解するには、学習データの詳細な分析が不可欠であると考えています。
また、本研究では2つのキャリブレーション手法を検討しましたが、LLMの順序感度を軽減するためには、より優れたキャリブレーション技術の導入が今後の重要な課題となります。

執筆者:Pouya PezeshkpourEstevam Hruschka、Megagon Labs

[原文へ – 2024/6/13]

(翻訳:Megagon Labs 東京オフィス

この記事をシェアする
11 Min Read
February 5, 2025
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。
12 Min Read
December 16, 2024
複合AIシステムの最適化フレームワークは、精度・コスト・遅延などの多目的最適化や複数プランの最適化、特に予算などの制約管理を含む幅広い目標を達成すべきであると述べています。これらの最適化目標は決して網羅的ではありませんが、エンタープライズ環境において重要な要素です。
19 Min Read
November 7, 2024
AmbigNLG は、NLG の指示における曖昧な仕様を特定し、それを改善することで出力品質を向上させる手法 です。本チュートリアルでは、AmbigNLG を活用する方法について解説します。このチュートリアルでは、以下のステップを順に説明します。 ・指示の中に含まれる曖昧な要素を特定する ・曖昧な指示を明確化し、より効果的なテキスト生成を実現する ・指示の明確化の有無による出力テキストの比較を行う ・インタラクティブな曖昧性軽減を活用し、下流タスクの改善を図る