大規模言語モデル(LLM)が多様な知識集約型タスクを遂行できる高度なエージェントとして登場したことにより、複合AIシステムの新時代が到来しました。これらのシステムは、エージェント(LLMなど)がツールやデータリトリーバと連携し、自然言語理解、コード生成、複雑な推論を伴うタスクを解決するエージェントワークフローをサポートします。
しかし、このようなシステムを製品化するにあたっては、一貫性、可用性、コスト管理などの課題に対応する必要があります。Megagon Labsの研究者たちは、エンタープライズ向けの複合AIシステムを構築する際の課題に取り組んでいます。本ブログ記事では、私たちが取り組んでいる3つのプロジェクトについて紹介します。
(1)エンタープライズ向けの複合AIシステムのアーキテクチャ設計
(2)実環境の制約を考慮したエージェントワークフローの最適化
(3)複合AIシステムにおけるエージェントのパフォーマンスベンチマークの確立
エンタープライズ向け複合AIシステムの設計指針(Blueprint Architecture)
本プロジェクトでは、エンタープライズ環境でコスト効率よく運用可能な複合AIシステムの設計に取り組んでいます。私たちが提案するアーキテクチャは、既存の計算基盤やデータインフラとシームレスに統合することを目指しています。データと指示をエージェントやその他のコンポーネント間で調整するためのストリーム(Streams)を主要なオーケストレーション概念とし、各エージェントのレジストリやデータソースに基づいて、タスクおよびデータの分解、マッピング、最適化を行うタスクプランナーおよびデータプランナーを活用します。これにより、精度やレイテンシーといったプロダクション環境の制約を考慮しながら、タスクを適切に配分する仕組みを構築します。
マルチエージェントシステムにおける推論能力: 限界、課題、および人間中心の解決策
本プロジェクトでは、多様な性能を持つ多数のエージェントで構成される複合AIシステムのパフォーマンスをどのように理解し、分析するかという課題に取り組んでいます。現在のアプローチは、狭義の単一目的に基づく最適化や評価に依存することが多く、その結果、実世界の制約を十分に考慮できていないという問題があります。
そこで、私たちは新たな評価基準として推論能力(Reasoning Capacity)を提案します。この基準は、複合AIシステムの最適化と評価をより包括的に捉えることを可能にし、さらに、システムの解釈、分析、デバッグを行うための重要なツールを提供します。
情報理論と分散コンピューティングの概念に着想を得て、推論能力(Reasoning Capacity, RC)を特定の制約のもとで、システムが入力を効果的に処理し、タスクに対して適切な出力を生成する能力と定義します。より具体的には、RCは入力分布に関して入力と出力の間の最大相互情報量(mutual information)として定義されます。
私たちは、推論能力を活用して複合AIシステムのさまざまなコンポーネントにおけるボトルネックを解決する可能性を探求しています。これらの制約には、オーケストレーションや計画におけるコスト、倫理、プライバシー、信頼性の考慮から、分布外のタスクやデータへの対応、エージェントの自己検証能力の欠如まで、多岐にわたる課題が含まれます。
CMDBench: 複合AIシステムにおける粗粒度から細粒度までのマルチモーダルデータ探索のためのベンチマーク
複合AIシステムは、エンタープライズデータプラットフォームにおけるデータアナリストの典型的な分析ワークフローを補完する可能性を持っています。しかし、複合AIシステムは、これまでデータアナリストが直面してきたデータ探索の課題と同様の問題に直面しています。これらの課題には、組織内のチームや部門ごとに作成されたマルチモーダルデータソースのサイロ化が含まれます。この結果、適切なデータソースを特定し、タスクを遂行することが困難になります。
既存のデータ探索ベンチマークは、このようなマルチモーダル性やデータソースの多様性をモデル化していません。さらに、複合AIシステムのベンチマークは、エンドツーエンドのタスク性能の評価にのみ重点を置いている傾向があります。そこで、本研究では、実世界の環境における複合AIシステム内のマルチモーダルデータリトリーバのデータ探索性能を評価するためのベンチマーク「CMDBench」を提案します。CMDBenchは、エンタープライズデータプラットフォームの複雑性をモデル化することで、より現実的な評価を可能にします。
既存のデータセットやベンチマークを活用し、オープンドメインにおける質問応答、複雑な推論タスク、構造化データに対する自然言語クエリなどのデータを適応させることで、粗粒度および細粒度のデータ探索とタスク実行性能を評価します。
実験の結果、データリトリーバの設計が下流タスクの性能に大きな影響を与えることが明らかになりました。具体的には、さまざまなモダリティ、データソース、タスクの難易度において、タスクの正確性が平均で46%低下することが確認されました。この結果は、エンタープライズデータに対する複合AIシステムの効率的な実行を実現するために、適切なLLMエージェントとリトリーバを特定する最適化戦略の開発が必要であることを示唆しています。
複合AIシステムは、信頼性が高く、効果的で実用的なAIアプリケーションを開発するための有望なアプローチです。AIシステムの最適な開発手法は依然として研究の余地がありますが、AI、NLP、データベース、システム、HCIなどの分野を横断する学際的な研究が、最も重要な課題を効果的に解決するための適切な方法論を提供すると考えています。
執筆者:Eser Kandogan、Sajjadur Rahman、Pouya Pezeshkpour、Megagon Labs
(翻訳:Megagon Labs 東京オフィス)