データとAIの共生

Megagon Labs の データとAIの共生(DAIS) グループは、データマネジメントと AI の融合領域にある研究課題を探求しています。 DAIS グループの中心的な目標は、マルチエージェントワークフローを含む複合AI システムにおいて、大規模なセルフサービス型データ分析を可能にする次世代データプラットフォームの構築です。

大規模言語モデル(LLM)の進歩、特に深い言語理解能力の向上は、データ統合、エンティティマッチング、データ探索といった従来のデータマネジメントの課題に取り組む新たな機会をもたらしています。 私たちは、AI を活用したデータマネジメントの研究において、言語モデルと最先端の機械学習手法を活用し、データレイクにおけるデータ探索、データテーブルの理解、データマネジメントのためのデータ拡張、自然言語からドメイン固有クエリの生成に注力しています。

一方で、LLM のエンタープライズシステムへの導入が進むにつれ、正確性、プライバシー、信頼性、ガバナンス、説明可能性が極めて重要な要素となっています。そのため、知識集約型クエリ理解の強化、異種データソースにおける知識検索の最適化、検索・クエリ処理の最適化、ファクトチェックと検証の堅牢性向上、ドメイン適応の柔軟性向上といった課題に対する体系的なアプローチの開発が求められています。 私たちの研究は、AI を活用したデータマネジメントだけでなく、データマネジメントを活用した AI の発展にも焦点を当てています。具体的には、エンタープライズ向けのデータカタログ管理、ファクトチェックと検証、データレイクの利便性向上、マルチエージェントシステムのベンチマークに取り組むことで、LLM を活用した知識に基づく生成のための知識グラウンディングと文脈化の強化を目指しています。

ハイライト

プロジェクト

Watchdog フレームワークは、コントラスト学習 を活用し、大規模なラベルなしの表データコーパスを用いて、オーバーヘッドを最小限に抑えながら堅牢な表データの表現を学習します。

ナレッジグラフと大規模言語モデル(LLM) を活用し、複雑なタスク決定に対する知識に基づく推論 を探求しています。本研究では、タスク決定のレビューと潜在的な誤判断の排除 を行う 二段階のパイプライン を構築し、推論の前に誤った決定を取り除くことで信頼性の高い推論生成を実現します。

実世界の環境において、複合AI システムのマルチモーダルデータ検索によるデータ探索性能の評価を促進 するため、エンタープライズデータプラットフォームの複雑性をモデル化したベンチマーク を提案します。

Child,Holding,Balloons,Standing,In,Front,Of,Fantasy,Storm,illustration,Painting

Multi-Agent SQL (MageSQL) は、大規模言語モデル(LLM)を活用し、複数のエージェントをオーケストレーションするパイプライン型アプローチによって、テキストから SQL への変換タスクに取り組む手法です。 ユーザーフレンドリーなインターフェースを提供し、エージェントの追加・編集、プロンプトのカスタマイズ、変更の影響の可視化が可能です

1 Min Read
June 26, 2024
長文テキストマッチングは、自然言語処理(NLP)および情報検索(IR)の分野において重要な課題です。私たちは、Transformerモデルを用いたシーケンスペア分類(sequence pair classification)による、シンプルかつ効果的な解決策を提案し、最先端のSiameseネットワークベースの手法を上回る性能を実証しました。
1 Min Read
June 3, 2024
データが最も重要な資源となる中、リレーショナルWebテーブルに含まれる膨大な情報を活用するこのフレームワークは不可欠なものとなっています。Watchogは、企業が製品カタログ、価格表、カスタマーデータリポジトリから貴重なインサイトを抽出し、それを活用して価格戦略を最適化し、顧客満足度とロイヤルティを向上させるためのパーソナライズされたレコメンドを提供することができるようになります。
1 Min Read
January 9, 2024
ナレッジグラフ(KG)構築および学習プラットフォームの詳細を解説し、機械学習を豊かにする役割を明らかにします。私たちの独自のパイプラインを設計し、データの出所やGNNトレーニングの粒度を掘り下げながら、KGを現実のユースケースの実用的な実世界のタスクにシームレスに統合することを促進するかを紹介します。