言語モデルの規模と能力が拡大するにつれて、言語モデルがどのように情報を処理し、理解するかについての期待も大きくなってきています。今日の実世界の問題では、独立したパラグラフのみを扱うことはほとんどありません。複数の文書を読み、比較し、推論する必要があり、多くの場合、長さ、形式、品質はさまざまです。
私たちは、自然言語処理における喫緊かつ未開拓のトピックである「複数文書推論」に取り組む3つの新しい論文を紹介します。これらの論文は、大規模言語モデル(LLM)が複数の情報源にまたがる複雑性をどのように扱うかについて、厳密なベンチマーク、新しい方法論、経験的洞察を提供します。
これらの貢献が何を明らかにしているのか、そしてそれらが一体どのようにマルチ・ドキュメント理解の限界を押し広げているのか、詳しく見てみましょう。
ロングコンテクストLMによる全体論的推論:HoloBenchの紹介
現代のタスクは、単に少量の関連するスニペットを検索するだけでなく、コーパス全体を統合して推論するモデルを要求しています。
ロングコンテクスト言語モデル(LCLM)は、一度に大量の情報を「読む」ことを前提としています。しかし、LCLMはこのデータをどの程度推論できるのでしょうか?
“Holistic Reasoning with Long-Context LMs“の中で、HoloBenchを紹介しています。HoloBenchは、LCLM が構造化されていないテキストに対して、フィルタリング、アグリゲーション、比較といったデータベース的な処理を実行できるかどうかを評価するためにデザインされたベンチマークです。これは、以下のような重要な要素を変化させる体系的なフレームワークです:
- コンテキストの長さ
- 情報密度
- 関連情報の配信
- クエリーの複雑さ
調査結果は目を見張るものです。LCLMの性能は、コンテキストの長さよりも、どれだけ多くの情報(すなわち、クエリに関連するコンテキストの情報量)がコンテキストに詰め込まれているかに敏感です。さらに、入力全体にわたる複数の事実のアグリゲーションを必要とするタスクは、特にクエリの複雑さが増すにつれて、顕著な性能低下をもたらします。
これらの洞察は、現在のLCLMにおける重要なボトルネックを明らかにし、今後の研究が焦点を当てるべき場所を指し示しています。それは、単にコンテキストウィンドウを拡張するだけでなく、大きなコンテキストに対するより効果的な推論を促進するフレームワークを開発することです。
この論文は#ICLR2025で発表されました。
LLMによる多条件ランキング
多くの場合、私たちは、多数の、時には相反する条件に基づいて項目を選択し、順序付けし、ランク付けする複数文書の推論を必要としています。これは推薦システム、政策生成、そしてトレードオフを行わなければならないあらゆる領域において一般的なシナリオです。
「大規模言語モデルによる多条件ランキング」において、私たちはMCRankを紹介します。MCRankは、LLMが複数の条件に従ってアイテムの集合をランク付けすることに挑戦するベンチマークです。
ベースライン評価では、一貫した傾向として、条件の数と一貫性が増すにつれて性能が急速に低下することが明らかになりました。
これを解決するために、本論文では分解推論アプローチであるEXSIRを提案します:
- ランキング条件の抽出
- 優先順位に基づいた論理的な順序への並べ替え
- 各条件を推論しながら、アイテムを反復的にランク付け
EXSIRはベースラインモデルに対して最大 14.4%の性能向上を達成し、思考連鎖プロンプトや標準的なランキングアプローチを大幅に凌駕しました
ここから得られるものは何でしょうか?私たちが推論プロセスをどのように構造化するかが、複雑な複数文書タスクのすべての違いを生みます。
この論文はNAACL2025本会議で発表されました。
単一文書から複数文書へ:複数文書の要約におけるハルシネーションの理解
要約が単一文書を超えるようになると、新たな課題が現れます。その中でも特に深刻なのがハルシネーションの増加です。根拠付けが比較的簡単な単一文書要約とは異なり、複数文書要約では、曖昧さ、事実の矛盾、誤りの余地が大きくなり、ハルシネーションの発生リスクが高まります。
From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization(単一文書から複数文書へ:複数文書要約におけるLLMのハルシネーション)では、LLMが文書間の情報を要約する際にどのようにハルシネーションが発生するかを研究しています。既存のベンチマークにはこの問題に直接取り組むものがなかったため、研究チームは既存のデータセットの上に2つの新しいベンチマークを作成しました。1つはニュース記事に基づくもの、もう1つは複数話者の会話に基づくもので、それぞれにトピック固有の洞察が注釈として付けられています。
結果は驚くべきものでした:
- 生成された要約の最大75%に幻覚的な内容(hallucinated content)が含まれている。
- ハルシネーションは要約の最後に集中する傾向がある。
- たとえ関連する情報が存在しない場合でも、GPT-4oのような大規模言語モデルは、およそ半分の確率でもっともらしいが事実ではない要約を生成します。
700以上の生成された洞察を手動で評価した結果、ハルシネーションの原因が明らかになりました。モデルはしばしば過度に一般化したり、指示を無視したり、もっともらしく聞こえるが根拠のない内容でギャップを埋めたりします。単純な事後フィルタリングでいくつかのエラーを減らすことはできるが、より深い問題はまだ残っています。
私たちの論文は、今日のLLMにおける重要な限界を明らかにしています。入力が複雑になるにつれて、合成と推測の境界線がますます曖昧になっていきます。
この研究はNAACL2025 Findingsで発表されました。
よりホリスティックな理解に向けて
これら3つの論文を合わせると、複数の文書を扱うLLMにおいて、より明示的で構造化された推論が緊急に必要であることがわかります。洞察のアグリゲーションであれ、競合する優先事項のバランスであれ、ハルシネーションの回避であれ、根底にある課題は同じです。
Megagon Labsでは、これらの課題を解決することが、信頼できる有能なAIシステムを構築するための基礎となると考えています。私たちのベンチマークと手法は、この重要な分野でのさらなる研究を奨励するため、現在公開されています。
執筆者:Pouya Pezeshkpour、Megagon Labs