大規模言語モデル(LLM)の中でも、特に深い言語理解能力の進展は、データ統合、エンティティマッチング、テーブル探索といった従来のデータマネジメントの問題に取り組む、新たな機会となりました。データマネジメント向けのAI分野における私たちの研究は、近年、言語モデルや最先端の機械学習アプローチの活用に焦点を当てています。データレイク内でのデータセットの探索を目的としたテーブル表現、データマネジメントタスクに対するデータ増強技術、データ統合タスクのための様々な宣言的説明アプローチなど、新たな場面で大規模言語モデルを活用しています。
一方で、LLMの活用が進むにつれて、特に正確性、プライバシー、信頼性、ガバナンス、説明可能性が非常に重要になる企業用システムでの応用には、異種データソース間のナレッジ検索の強化、検索(クエリ処理)の最適化、ファクト生成と検証の堅牢性、ドメイン適応の柔軟性が求められています。例えば、人事(HR)分野では、バイアス、事実性、説明可能性に関連する新たな問題を慎重に考慮する必要があります。データマネジメント向けのAI分野における私たちの研究は、ナレッジに基づいた生成のためのナレッジグラウンディングと文脈化、ファクトチェックと検証、データレイクの使いやすさ、そして企業内アプリケーション向けのマルチエージェントシステムのベンチマークなどに焦点を当てています。
Recent Publications:
CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems
Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks
Watchog: A Light-weight Contrastive Learning based Framework for Column Annotation
A Blueprint Architecture of Compound AI Systems for Enterprise