LLMと自然言語処理

大規模言語モデル(LLM)の革新により、自然言語処理(NLP)はタスク固有の手法から汎用的なデータ駆動型アプローチへと移行し、研究と応用に革命をもたらしました。現代の LLM は、検索エンジン、API、シンボリック推論システムなどの外部ツールと統合され、専門知識を要する複雑なタスクに対応できるようになっています。しかし、LLM の利用が拡大するにつれ、公平性、制御性、透明性、説明可能性といった課題が浮き彫りになっています。特に、人事(HR)、法律、金融、医療といった分野では、これらの要素が極めて重要です

Megagon Labs では、LLM の可能性を最大限に活用しつつ、これらの課題を克服することを目指しています。私たちの研究は、以下の 3 つの主要分野に焦点を当てています。

  1. LLM の挙動と制約の理解: 実世界のプロダクション環境における LLM の性能と、その課題を調査。
  2. LLM の能力向上: 新たなシステム、ハイブリッドなニューロンシンボリックアプローチ、ドメイン固有の技術革新を開発し、LLM のパフォーマンスを向上。
  3. 堅牢な評価手法: 複雑な実世界のタスクにおける LLM の評価手法を確立し、多様なアプリケーションにおいて信頼性と有効性を確保。

これらの手法を活用し、HR や関連分野に適した AI ソリューションの品質、一貫性、公平性、真実性を向上させ、研究と実践の両面で有意義な進展を促進します。私たちの取り組みは、基礎研究、応用プロジェクト、オープンソース貢献を含み、研究所内外での実際的な影響を生み出すことを目指しています。

ハイライト

プロジェクト

LLM のパフォーマンス向上において、検索がどのように機能するのかを評価し、検索が有効な場合と逆効果になる場合を明らかにするベンチマークおよび調査を実施。本研究の知見は、信頼性の高い検索拡張型言語モデル(RAG)ベースの QA システムの開発に貢献する。

複数選択式質問応答タスクにおける LLM の感度を調査。このタスクは、LLM の推論能力や事実検索能力を評価するためによく使用される。

自然言語生成(NLG)タスクの指示に含まれる曖昧な仕様を特定し、より良い出力品質を実現するために指示を明確化する手法を提案。

「抽出して評価(Extract then Evaluate)」という革新的な手法を提案。これにより、LLM を用いた長文要約の評価コストを大幅に削減し、人間による評価との整合性を向上させる。

関連

研究論文

NAACL - Findings
2025
Although many studies have investigated and reduced hallucinations in large language models (LLMs) for single-document tasks, research on hallucination in multi-document summarization (MDS) tasks remains largely unexplored. Specifically, it is unclear how the challenges arising from handling multiple documents (e.g., repetition and diversity of information) affect models outputs. In this work, we investigate how hallucinations manifest in LLMs when summarizing topic-specific information from multiple documents. Since no benchmarks exist for investigating hallucinations in MDS, we use existing news and conversation datasets, annotated with topic-specific insights, to create two novel multi-document benchmarks. When evaluating 5 LLMs on our benchmarks, we observe that on average, up to 75% of the content in LLM-generated summary is hallucinated, with hallucinations more likely to occur towards the end of the summaries. Moreover, when summarizing non-existent topic-related information, gpt-3.5-turbo and GPT-4o still generate summaries about 79.35% and 44% of the time, raising concerns about their tendency to fabricate content. To understand the characteristics of these hallucinations, we manually evaluate 700+ insights and find that most errors stem from either failing to follow instructions or producing overly generic insights. Motivated by these observations, we investigate the efficacy of simple post-hoc baselines in mitigating hallucinations but find them only moderately effective. Our results underscore the need for more effective approaches to systematically mitigate hallucinations in MDS. We release our dataset and code.
NAACL - Findings
2024
Large Language Models (LLMs) have demonstrated remarkable capabilities in various NLP tasks. However, previous works have shown these models are sensitive towards prompt wording, and few-shot demonstrations and their order, posing challenges to fair assessment of these models. As these models become more powerful, it becomes imperative to understand and address these limitations. In this paper, we focus on LLMs robustness on the task of multiple-choice questions — commonly adopted task to study reasoning and fact-retrieving capability of LLMs. Investigating the sensitivity of LLMs towards the order of options in multiple-choice questions, we demonstrate a considerable performance gap of approximately 13% to 75% in LLMs on different benchmarks, when answer options are reordered, even when using demonstrations in a few-shot setting. Through a detailed analysis, we conjecture that this sensitivity arises when LLMs are uncertain about the prediction between the top-2/3 choices, and specific options placements may favor certain prediction between those top choices depending on the question caused by positional bias. We also identify patterns in top-2 choices that amplify or mitigate the model’s bias toward option placement. We found that for amplifying bias, the optimal strategy involves positioning the top two choices as the first and last options. Conversely, to mitigate bias, we recommend placing these choices among the adjacent options. To validate our conjecture, we conduct various experiments and adopt two approaches to calibrate LLMs’ predictions, leading to up to 8 percentage points improvement across different models and benchmarks.
EACL
2024
Large Language Models (LLMs) have shown promising performance in summary evaluation tasks, yet they face challenges such as high computational costs and the Lost-in-the-Middle problem where important information in the middle of long documents is often overlooked. To address these issues, this paper introduces a novel approach, Extract-then-Evaluate, which involves extracting key sentences from a long source document and then evaluating the summary by prompting LLMs. The results reveal that the proposed method not only significantly reduces evaluation costs but also exhibits a higher correlation with human evaluations. Furthermore, we provide practical recommendations for optimal document length and sentence extraction methods, contributing to the development of cost-effective yet more accurate methods for LLM-based text generation evaluation.
4 Min Read
November 7, 2024
AmbigNLG は、NLG の指示における曖昧な仕様を特定し、それを改善することで出力品質を向上させる手法 です。本チュートリアルでは、AmbigNLG を活用する方法について解説します。このチュートリアルでは、以下のステップを順に説明します。 ・指示の中に含まれる曖昧な要素を特定する ・曖昧な指示を明確化し、より効果的なテキスト生成を実現する ・指示の明確化の有無による出力テキストの比較を行う ・インタラクティブな曖昧性軽減を活用し、下流タスクの改善を図る
1 Min Read
June 13, 2024
大規模言語モデル(LLM)が複数選択式質問(MCQ)タスクにおいて、選択肢の順序と性能の変動にどのように関係するかを探ります。綿密な分析の結果、LLMは解答の順序に大きく影響を受け、ベンチマークによっては最大75%の性能変動が生じることを明らかにしました。
1 Min Read
June 6, 2024
質問応答システムにおける言語モデルの性能に対する検索の影響を評価するために設計されたWiTQAデータセットを紹介します。検索拡張がQAの精度を向上させる場合と、誤りを引き起こす可能性がある場合の研究結果を詳述し、検索拡張型言語モデル(Retrieval Augmented Language Models, RALM)の最適化に向けた貴重な知見 を得ることができます。