Blog

LLM による長文要約評価における「少ない方が良い」アプローチ

テキスト生成や要約の分野において、特に長文要約の評価は常に課題となっています。従来の評価手法は、高い計算コストを必要とする上、「Lost-in-the-Middle」問題、すなわち長文の中央部分に含まれる重要な情報をモデルが見落とす傾向に悩まされてきました。
これらの課題に対処するため、本研究では長文モデルの評価を行う革新的なアプローチを提案します。この手法により、評価コストを大幅に削減しながら、人間による評価との整合性を向上させることが可能になります。

Read More »

WiTQAを用いた詳細分析: そのRALM(検索拡張型言語モデル)は有益か、それとも有害か?

質問応答システムの構築において、検索拡張型言語モデル(Retrieval Augmented Language Models, RALM)は、クエリに関連する外部知識を取得し、それに基づいて応答を生成する事実上の標準となっています。しかし、取得された外部知識が誤っている場合、RALMの応答も誤った方向に誘導される可能性があります。
一方で、モデルのスケールや事前学習データの増加に伴い、言語モデル自体の能力は大幅に向上しており、パラメータの中に膨大な知識を保持することが可能になっています。
このような背景から、信頼性の高いRALMベースのQAシステムを構築する際に重要な問いが生まれます。それは、「検索はいつ役立ち、いつ言語モデルのパフォーマンスを損なうのか?」ということです。
この問いに取り組むために、新しい質問応答データセットWiTQAを構築し、異なるサイズの言語モデルと検索モデルを組み合わせた包括的な評価を行いました。この大規模な評価を通じて、実世界のQAシステムにおいて検索拡張を用いるべきか否かを判断するための貴重な知見 を得ることができました。

Read More »

順序は重要:複数選択式タスクにおける LLM の感度評価

大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて優れた能力を発揮しています。しかし、これまでの研究では、LLMがプロンプトの表現方法やフューショット学習のデモンストレーションの選択、さらにはその順序に対して敏感であることが示されており、公平な評価を行う上での課題となっています。LLMの性能が向上するにつれ、これらの制約を理解し、克服することがますます重要になっています。
本研究では、LLMの推論能力や事実検索能力を評価するためによく用いられる複数選択式質問(MCQ)タスクにおける頑健性に着目します。この文脈において、LLMがMCQの選択肢の順序に対してどの程度の感度を示すのか、その感度にはどのような要因が影響を与えているのか、そして選択肢の順序に対する感度を低減し頑健性を向上させる方法があるのか、という三つの研究課題に取り組みます。本研究を通じて、LLMは選択肢の順序に対して非常に敏感であり、その感度を容易に解決することが難しいことを明らかにします。

Read More »

データアノテーターとしてのLLM(第2部) – MEGAnno+: 人間とLLMによる協調型アノテーションシステム

LLMを活用したデータアノテーションシリーズのブログの第2部です。シリーズの第1部では、LLMをアノテーションエージェントとして活用する方法と、それに伴う課題や可能性について探りました。本記事では、人間の専門知識とLLMの能力を統合し、LLMアノテーションの課題に対処するための人間-LLM協調型アノテーションツールであるMEGAnno+を紹介します。

Read More »

データアノテーターとしてのLLM(第1部) – 課題と機会

データアノテーションに詳しい方なら、このプロセスがプロジェクトを遅らせる苦痛な作業になり得ることをご存知でしょう。多くの研究者や実務者が、機械学習(ML)モデルをアノテーションエージェントとして利用することで、データアノテーションプロセスを自動化しようとしてきました。少量のデータにアノテーションを付与し、シンプルなMLモデルをトレーニングし、そのモデルを使ってラベリングを行うという方法です。このアプローチは時間を節約できますが、タスクが変わった場合(例:トピック分類→感情分析)やデータセットが変わった場合(例:ニュース記事→SNS投稿)、新しいMLモデルをトレーニングする必要があります。

Read More »

事前学習済み言語モデルを用いた深層エンティティマッチング

エンティティマッチング(Entity Matching, EM)は、データサイエンティストの日常業務において重要なタスクです。2つのデータエントリーのコレクション(例: 2つのテーブル、JSON、テキスト)が与えられた場合、EMの目標は、製品、出版物、ビジネスなど、同じ実世界のエンティティを指すエントリのペアをすべて見つけることです。そのシンプルな問題定義により、EMはデータ統合における最も基本的な問題の1つであり、エンティティ検索、データクリーニング、異なるデータソースからのデータ結合など、幅広いアプリケーションに応用されています。

Read More »