ブログ

Blue: "Agentic" for the Enterprise 
Blue v0.9 vol 1
私たちのBlue v0.9は、エンタープライズ環境でエージェント型ワークフローを構築・展開するためのオープンソースフレームワークです。従来のAIフレームワークとは異なり、Blueは、スケーラビリティ、観測可能性、設定可能性、既存のインフラストラクチャとのシームレスな統合など、エンタープライズ規模の要件を念頭にデザインされています。
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。
複合AIシステムの最適化フレームワークは、精度・コスト・遅延などの多目的最適化や複数プランの最適化、特に予算などの制約管理を含む幅広い目標を達成すべきであると述べています。これらの最適化目標は決して網羅的ではありませんが、エンタープライズ環境において重要な要素です。
AmbigNLG は、NLG の指示における曖昧な仕様を特定し、それを改善することで出力品質を向上させる手法 です。本チュートリアルでは、AmbigNLG を活用する方法について解説します。このチュートリアルでは、以下のステップを順に説明します。 ・指示の中に含まれる曖昧な要素を特定する ・曖昧な指示を明確化し、より効果的なテキスト生成を実現する ・指示の明確化の有無による出力テキストの比較を行う ・インタラクティブな曖昧性軽減を活用し、下流タスクの改善を図る
MEGAnnoは、大規模言語モデル(LLM)の力と人間の専門知識を組み合わせたデータアノテーションフレームワークで、データラベリングの効率化と精度向上を実現します。本記事では、MEGAnnoの機能を詳しく紹介し、具体的なコードスニペットとともに解説します。
長文テキストマッチングは、自然言語処理(NLP)および情報検索(IR)の分野において重要な課題です。私たちは、Transformerモデルを用いたシーケンスペア分類(sequence pair classification)による、シンプルかつ効果的な解決策を提案し、最先端のSiameseネットワークベースの手法を上回る性能を実証しました。
大規模言語モデル(LLM)が複数選択式質問(MCQ)タスクにおいて、選択肢の順序と性能の変動にどのように関係するかを探ります。綿密な分析の結果、LLMは解答の順序に大きく影響を受け、ベンチマークによっては最大75%の性能変動が生じることを明らかにしました。
Megagon Labsの研究者たちは、企業向けの複合AIシステム構築における課題に取り組んでいます。本ブログでは、私たちが進めている3つのプロジェクトを紹介します。(1) 複合AIシステムを製品化するための適切なアーキテクチャの開発、(2) 実環境の制約を考慮したエージェントワークフローの最適化、(3) エンタープライズ環境における複合AIシステム内のエージェントのパフォーマンスベンチマークの確立です。
質問応答システムにおける言語モデルの性能に対する検索の影響を評価するために設計されたWiTQAデータセットを紹介します。検索拡張がQAの精度を向上させる場合と、誤りを引き起こす可能性がある場合の研究結果を詳述し、検索拡張型言語モデル(Retrieval Augmented Language Models, RALM)の最適化に向けた貴重な知見 を得ることができます。