LLMと自然言語処理

大規模言語モデル(LLM)の革新により、自然言語処理(NLP)はタスク固有の手法から汎用的なデータ駆動型アプローチへと移行し、研究と応用に革命をもたらしました。現代の LLM は、検索エンジン、API、シンボリック推論システムなどの外部ツールと統合され、専門知識を要する複雑なタスクに対応できるようになっています。しかし、LLM の利用が拡大するにつれ、公平性、制御性、透明性、説明可能性といった課題が浮き彫りになっています。特に、人事(HR)、法律、金融、医療といった分野では、これらの要素が極めて重要です

Megagon Labs では、LLM の可能性を最大限に活用しつつ、これらの課題を克服することを目指しています。私たちの研究は、以下の 3 つの主要分野に焦点を当てています。

  1. LLM の挙動と制約の理解: 実世界のプロダクション環境における LLM の性能と、その課題を調査。
  2. LLM の能力向上: 新たなシステム、ハイブリッドなニューロンシンボリックアプローチ、ドメイン固有の技術革新を開発し、LLM のパフォーマンスを向上。
  3. 堅牢な評価手法: 複雑な実世界のタスクにおける LLM の評価手法を確立し、多様なアプリケーションにおいて信頼性と有効性を確保。

これらの手法を活用し、HR や関連分野に適した AI ソリューションの品質、一貫性、公平性、真実性を向上させ、研究と実践の両面で有意義な進展を促進します。私たちの取り組みは、基礎研究、応用プロジェクト、オープンソース貢献を含み、研究所内外での実際的な影響を生み出すことを目指しています。

ハイライト

プロジェクト

LLM のパフォーマンス向上において、検索がどのように機能するのかを評価し、検索が有効な場合と逆効果になる場合を明らかにするベンチマークおよび調査を実施。本研究の知見は、信頼性の高い検索拡張型言語モデル(RAG)ベースの QA システムの開発に貢献する。

複数選択式質問応答タスクにおける LLM の感度を調査。このタスクは、LLM の推論能力や事実検索能力を評価するためによく使用される。

自然言語生成(NLG)タスクの指示に含まれる曖昧な仕様を特定し、より良い出力品質を実現するために指示を明確化する手法を提案。

「抽出して評価(Extract then Evaluate)」という革新的な手法を提案。これにより、LLM を用いた長文要約の評価コストを大幅に削減し、人間による評価との整合性を向上させる。

関連

研究論文

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka
The extraction of structured information from raw text is a fundamental component of many NLP applications, including document retrieval, ranking, and relevance estimation. High-quality extractions often require domain-specific accuracy, up-to-date understanding of specialized taxonomies, and the ability to incorporate emerging jargon and rare outliers. In many domains–such as medical, legal, and HR–the extraction model must also adapt to shifting terminology and benefit from explicit reasoning over structured knowledge. We propose DySECT, a Dynamic Self-Evolving Extraction and Curation Toolkit, which continually improves as it is used. The system incrementally populates a versatile, self-expanding knowledge base (KB) with triples extracted by the LLM. The KB further enriches itself through the integration of probabilistic knowledge and graph-based reasoning, gradually accumulating domain concepts and relationships. The enriched KB then feeds back into the LLM extractor via prompt tuning, sampling of relevant few-shot examples, or fine-tuning using KB-derived synthetic data. As a result, the system forms a symbiotic closed-loop cycle in which extraction continuously improves knowledge, and knowledge continuously improves extraction.
ACL
2026
Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimizationbased framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.
言語処理学会 (NLP)
2026
大規模言語モデルにおけるプロンプト変動が出力に対する影響について、様々な文脈で研究されており、用語は多数存在する。本研究は、既存研究で混在してきた概念を「頑健性」と「可制御性」の二軸から再構造化する。さらに、公開データセットを前提とした従来の分析とは異なり、複雑なタスク構成や追加知識の記述を要するビジネスサービス環境に着目し、両概念の重要度を体系的に評価した。実験の結果、我々が考察したタスクにおいては、先行研究で強調されてきた頑健性よりも、プロンプト意図を確実に反映し必要情報を安定して引き出す可制御性が実運用において本質的であることが明らかとなった。本研究は、ビジネス環境に適したプロンプト設計指針の再考に寄与するとともに、将来の評価指標構築やモデル改善への示唆を提供する。
言語処理学会 (NLP)
2026
大規模マルチラベル分類においてラベルノイズは不可避な課題である.既存のGeneralized Cross Entropyは,損失の大きさに応じてノイズを判定するため学習が難しい事例をノイズと誤認して学習への影響を低下させ,網羅性を損なう.本研究は意味的類似度に基づく自己推定型損失重み付け手法を提案する.提案手法はラベルの学習中のモデルによる事例とラベルの意味的類似性に応じて,事例–ラベル単位で重みを適応的に与える.具体的には,意味的類似性が低い正例への学習を抑制すると同時に, 意味的に類似した負例への学習の寄与を緩和することで潜在的な正例を保護する.人工ノイズ環境下の実験において,提案手法は既存手法と比較して高頻度ラベルの精度 (P@1) および頻度バイアスを除去した精度 (PSP@1) を改善した.
言語処理学会 (NLP)
2026
大村 舞 (大阪樟蔭女子大学), 若狭 絢 (東北大学), 松田 寛, 浅原 正幸 (国立国語研究所)
本研究では,日本語日常会話コーパス (CEJC) をUniversal Dependencies形式に変換した日本語話し言葉のツリーバンク UD Japanese-CEJCを開発・構築したので,そのデータについて報告する.日本語日常会話コーパスは,日本語の様々な日常会話を収録した大規模な音声言語コーパスであり,単語区切りや品詞のアノテーションが含まれている.我々は,UD Japanese-CEJCのために,CEJCの長単位形態論情報と文節係り受け情報を新たにアノテーションした.UD Japanese-CEJCは日本語形態論情報と文節 ベースの依存構造情報およびCEJCから手作業で整備された変換ルールに従って構築した.構築したUD Japanese-CEJCに対して,日本語書き言葉コーパスとの比較やUD依存構造解析精度の評価をおこない,CEJCにおけるUD構築に関する様々な問題点を検討した.
言語処理学会 (NLP)
2026
松田 寛, 浅原 正幸(国立国語研究所)
大規模言語モデル (LLM) の性能向上とその微調整技術の普及は,様々な下流タスクの性能を引き上げると同時に,自然言語処理の基礎技術である統語解析処理の性能向上にも寄与している.本稿では,LLM の微調整技術であるLoRA SFTを用いた多言語統語解析モデルを提案する.提案手法は,文書を入力とする言語判定+文区切りタスク,文を入力とする単語分割+言語固有品詞推定タスク,文と単語リストを入力とする依存構造解析タスクで構成され,これらのタスクを貫通動作させることで,言語を問わずテキストを入力するだけで依存構造解析結果を得ることができる.Universal Dependenciesの40言語のデータセットを用いた実験により,マルチタスク学習では文区切り精度がボトルネックとなること,単語分割とともに言語固有品詞推定を行うことで単語分割精度が向上する等の知見を得た.研究成果のモデルおよび解析ライブラリは,商用利用可能なライセンスのもとで公開予定である.
13 Min Read
November 7, 2025
「混合シグナル(Mixed Signals)」は、視覚言語モデル(VLM)の隠れたバイアスを明らかにし、ヘルスケア、RAG システム、AI の安全性に対して重大な示唆を与えています。
7 Min Read
May 5, 2025
私たちは、自然言語処理における喫緊かつ未開拓のトピックである「複数文書推論」に取り組む3つの新しい論文を紹介します。これらの論文は、大規模言語モデル(LLM)が複数の情報源にまたがる複雑性をどのように扱うかについて、厳密なベンチマーク、新しい方法論、経験的洞察を提供します。
11 Min Read
February 5, 2025
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。