ブログ

「混合シグナル(Mixed Signals)」は、視覚言語モデル(VLM)の隠れたバイアスを明らかにし、ヘルスケア、RAG システム、AI の安全性に対して重大な示唆を与えています。
Blue - Designing Agentic for Enterprise
エージェントによるワークフローをサポートするために、企業システムはどのように進化できるでしょうか?本記事では、AIエージェントやデータ、サービスを、スケーラビリティと可観測性があり、制御可能なエンタープライズ・アプリケーションに統合するためにデザインされたフレームワークであるBlueの概念的基盤を探ります。
Beyond Single Document: Advancing Multi-Document Reasoning with LLMs
私たちは、自然言語処理における喫緊かつ未開拓のトピックである「複数文書推論」に取り組む3つの新しい論文を紹介します。これらの論文は、大規模言語モデル(LLM)が複数の情報源にまたがる複雑性をどのように扱うかについて、厳密なベンチマーク、新しい方法論、経験的洞察を提供します。
Blue: "Agentic" for the Enterprise 
Blue v0.9 vol 1
私たちのBlue v0.9は、エンタープライズ環境でエージェント型ワークフローを構築・展開するためのオープンソースフレームワークです。従来のAIフレームワークとは異なり、Blueは、スケーラビリティ、可観測性、設定の柔軟性、既存のインフラとの統合性など、エンタープライズ規模の要件を念頭にデザインされています。
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。
複合AIシステムの最適化フレームワークは、精度・コスト・遅延などの多目的最適化や複数プランの最適化、特に予算などの制約管理を含む幅広い目標を達成すべきであると述べています。これらの最適化目標は決して網羅的ではありませんが、エンタープライズ環境において重要な要素です。
AmbigNLG は、NLG の指示における曖昧な仕様を特定し、それを改善することで出力品質を向上させる手法 です。本チュートリアルでは、AmbigNLG を活用する方法について解説します。このチュートリアルでは、以下のステップを順に説明します。 ・指示の中に含まれる曖昧な要素を特定する ・曖昧な指示を明確化し、より効果的なテキスト生成を実現する ・指示の明確化の有無による出力テキストの比較を行う ・インタラクティブな曖昧性軽減を活用し、下流タスクの改善を図る
MEGAnnoは、大規模言語モデル(LLM)の力と人間の専門知識を組み合わせたデータアノテーションフレームワークで、データラベリングの効率化と精度向上を実現します。本記事では、MEGAnnoの機能を詳しく紹介し、具体的なコードスニペットとともに解説します。
Mixed Signals
「混合シグナル(Mixed Signals)」は、視覚言語モデル(VLM)の隠れたバイアスを明らかにし、ヘルスケア、RAG システム、AI の安全性に対して重大な示唆を与えています。
Blue - Designing Agentic for Enterprise
エージェントによるワークフローをサポートするために、企業システムはどのように進化できるでしょうか?本記事では、AIエージェントやデータ、サービスを、スケーラビリティと可観測性があり、制御可能なエンタープライズ・アプリケーションに統合するためにデザインされたフレームワークであるBlueの概念的基盤を探ります。
Beyond Single Document: Advancing Multi-Document Reasoning with LLMs
私たちは、自然言語処理における喫緊かつ未開拓のトピックである「複数文書推論」に取り組む3つの新しい論文を紹介します。これらの論文は、大規模言語モデル(LLM)が複数の情報源にまたがる複雑性をどのように扱うかについて、厳密なベンチマーク、新しい方法論、経験的洞察を提供します。
Blue: "Agentic" for the Enterprise 
Blue v0.9 vol 1
私たちのBlue v0.9は、エンタープライズ環境でエージェント型ワークフローを構築・展開するためのオープンソースフレームワークです。従来のAIフレームワークとは異なり、Blueは、スケーラビリティ、可観測性、設定の柔軟性、既存のインフラとの統合性など、エンタープライズ規模の要件を念頭にデザインされています。
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。
複合AIシステムの最適化フレームワークは、精度・コスト・遅延などの多目的最適化や複数プランの最適化、特に予算などの制約管理を含む幅広い目標を達成すべきであると述べています。これらの最適化目標は決して網羅的ではありませんが、エンタープライズ環境において重要な要素です。
AmbigNLG は、NLG の指示における曖昧な仕様を特定し、それを改善することで出力品質を向上させる手法 です。本チュートリアルでは、AmbigNLG を活用する方法について解説します。このチュートリアルでは、以下のステップを順に説明します。 ・指示の中に含まれる曖昧な要素を特定する ・曖昧な指示を明確化し、より効果的なテキスト生成を実現する ・指示の明確化の有無による出力テキストの比較を行う ・インタラクティブな曖昧性軽減を活用し、下流タスクの改善を図る
MEGAnnoは、大規模言語モデル(LLM)の力と人間の専門知識を組み合わせたデータアノテーションフレームワークで、データラベリングの効率化と精度向上を実現します。本記事では、MEGAnnoの機能を詳しく紹介し、具体的なコードスニペットとともに解説します。
長文テキストマッチングは、自然言語処理(NLP)および情報検索(IR)の分野において重要な課題です。私たちは、Transformerモデルを用いたシーケンスペア分類(sequence pair classification)による、シンプルかつ効果的な解決策を提案し、最先端のSiameseネットワークベースの手法を上回る性能を実証しました。
大規模言語モデル(LLM)が複数選択式質問(MCQ)タスクにおいて、選択肢の順序と性能の変動にどのように関係するかを探ります。綿密な分析の結果、LLMは解答の順序に大きく影響を受け、ベンチマークによっては最大75%の性能変動が生じることを明らかにしました。
Megagon Labsの研究者たちは、企業向けの複合AIシステム構築における課題に取り組んでいます。本ブログでは、私たちが進めている3つのプロジェクトを紹介します。(1) 複合AIシステムを製品化するための適切なアーキテクチャの開発、(2) 実環境の制約を考慮したエージェントワークフローの最適化、(3) エンタープライズ環境における複合AIシステム内のエージェントのパフォーマンスベンチマークの確立です。
質問応答システムにおける言語モデルの性能に対する検索の影響を評価するために設計されたWiTQAデータセットを紹介します。検索拡張がQAの精度を向上させる場合と、誤りを引き起こす可能性がある場合の研究結果を詳述し、検索拡張型言語モデル(Retrieval Augmented Language Models, RALM)の最適化に向けた貴重な知見 を得ることができます。
データが最も重要な資源となる中、リレーショナルWebテーブルに含まれる膨大な情報を活用するこのフレームワークは不可欠なものとなっています。Watchogは、企業が製品カタログ、価格表、カスタマーデータリポジトリから貴重なインサイトを抽出し、それを活用して価格戦略を最適化し、顧客満足度とロイヤルティを向上させるためのパーソナライズされたレコメンドを提供することができるようになります。
LLMを活用したテキスト編集の限界を押し広げるために、私たちはXATUという新しいテキスト編集手法を評価するためのベンチマークを紹介します。XATUは、詳細な指示とゴールドスタンダードの編集説明を組み込んだ、新しいテキスト編集ベンチマークであり、説明可能なテキスト更新を実現します。
LLMを人間のアノテーターの完全な代替とするのではなく、双方の強みを活用して、正確で信頼性のあるアノテーションを得る必要があります。本ブログでは、データアノテーションのためにLLMを協働(コラボレーション)として効果的に活用する方法について説明します。
LLMアノテーションの課題に取り組むため、LLMの能力と人間の専門知識を統合した人間-LLM協働アノテーションツール「MEGAnno+」を紹介します。
LLMを人間のアノテーターの完全な代替とするのではなく、双方の強みを活用して、正確で信頼性のあるアノテーションを得る必要があります。本ブログでは、データアノテーションのためにLLMを協働(コラボレーション)として効果的に活用する方法について説明します。
テキスト生成や要約の分野において、特に長文の要約を評価することは常に難しい課題となっています。これらの課題に対処するため、私たちは革新的なアプローチを用いて長文モデルを評価し、評価コストを大幅に削減し、人間による評価との整合性を向上させることができます。
ナレッジグラフ(KG)構築および学習プラットフォームの詳細を解説し、機械学習を豊かにする役割を明らかにします。私たちの独自のパイプラインを設計し、データの出所やGNNトレーニングの粒度を掘り下げながら、KGを現実のユースケースの実用的な実世界のタスクにシームレスに統合することを促進するかを紹介します。
私たちの研究実験では、Zero-shot Triplet Extraction via Template Infilling(ZETT)が抽出精度の最先端を更新しつつ、概念的にシンプルで安定したソリューションを提供することを示しました。今後、ZETTのように自己教師ありの事前学習を活用する手法が、情報抽出をオープンドメイン環境に適応させる上で重要な役割を果たすと考えています。
LREC 2022で発表した論文 Self-Contained Utterance Description Corpus for Japanese Dialog の実装 Pilota (パイロッタ) を公開しました。
blue waves abstract
Megagon Labsでは、LLMに加えて構造化情報(ナレッジベース[KB]、ナレッジグラフ[KG]、データベース[DB]など)や非構造化情報(テキスト)を活用する、継続的かつ(半)自動的な機械学習の枠組みにおいて、共生的なモデルとシステム(図1)の開発に取り組んでいます。このブログでは、Megagon KnowledgeHubについての概要、また研究開発にどのように貢献しているかを紹介します。
Purple inner pipe
NLPの研究者や実務者が自身のデータを理解し改善できるよう支援するために、私たちはデータ中心のNLPのための探索的テキスト分析ツール「Weedle」、そしてのその強みを紹介します。
Magnetonは、計算ノートブックにおいて透明性が高く、再利用可能で表現力豊かなデータサイエンスのワークフローを実現するために、対話履歴を考慮したカスタマイズ可能なウィジェットを構成するフレームワークです。
データ統合の限界を克服するための多様なデータ統合アプリケーション向けエンドツーエンドのフレームワーク「Sudowoodo」を提案しています。Sudowoodoは、ラベルの必要性という課題に対処するため、大量の未ラベルデータからデータ表現モデルを学習するコントラスト学習を活用しています。このアプローチは、類似データ項目のペアと、異なる可能性が高い非類似ペアを区別する方法をモデルが学習できるようにするコントラスト目的関数によって実現します。
サンプル取得の有効性と効率性を向上させるための2つの重要な設計を特定しました。1つは、ランダムサンプリングにより取得対象となる未ラベルデータのプールを縮小すること、もう1つは、多様性と不確実性というハイブリッド取得における目的を分離することです。既存手法の研究に基づき構築した新しいアクティブラーニング手法「TYROGUE」について説明します。
多くの実世界のアプリケーションで広く使用され、整った文章に比べてより特有の特徴を持つことが知られているユーザー生成テキストに対して、既存のエンティティセット拡張(ESE)手法の汎化能力を検証します。
CoCoSumは、現在の意見要約の枠組みを一歩進め、複数の対象を比較することで、対比的および共通的な要約を生成することを目的としたフレームワークです。このフレームワークは、対比的および共通的な要約を共同で生成する2つの基本的な要約モデルで構成されています。
情報抽出(IE)の全フェーズにわたる人間の関与や課題を明らかにするため、データ準備からモデルデプロイメントまでのタスクとアクションを調査したインタビュースタディの結果を紹介します。