機械学習は、エンティティマッチング、データクリーニング、テーブルアノテーションといったデータ統合タスクにおいて、ますます重要な役割を果たしています。最近では、事前学習済み言語モデル(LM)の研究進展がデータ統合タスクに広く採用され、最先端のパフォーマンスを達成しています。しかし、既存の学習ベースのソリューションには依然として2つの大きな課題があり、実際の運用での魅力が低下しています。
一方で、このような学習ベースのアプローチの成功は、大規模で高品質なアノテーション付きデータセットの作成というコストを伴いますが、それは常に簡単に入手できるわけではありません。他方で、実務者は各タスクごとに専用の機械学習ソリューションを構築する必要があり、モデルエンジニアリングの追加コストが発生します。さらに、このようなモデルの再利用性は限られていることが多いです。
対比学習ベースのフレームワーク
図1: エンドツーエンドの最適化のための対比学習フレームワーク
本研究では、さまざまなデータ統合アプリケーションのためのエンドツーエンドフレームワークSudowoodoを提案し、上記の課題を解決します。Sudowoodoは、対比学習を活用して、大量のラベルなしデータ項目からデータ表現モデルを学習することで、ラベルの要件に対応します。これは、類似したデータ項目のペアと、それとは異なる可能性が高いペアを区別する方法をモデルが学習できるようにする対比目的関数によって実現されます。対比学習の事前学習プロセスは軽量で完全に教師なしで行われます。
さらに、学習されたデータ項目の表現は、データ統合パイプライン内のさまざまなサブタスクに、教師なしの方法で直接、またはラベルを使用したファインチューニングによって適用できます。この方法により、Sudowoodoはデータラベリングとモデルエンジニアリングの両方のコストを大幅に削減することが可能です。
Sudowoodoの性能を向上させるために、学習された表現から高信頼度のトレーニング信号を抽出し、ファインチューニング性能をさらに向上させる擬似ラベリングステップをオプションとして提案します。さらに、事前学習プロセスのために、 データ拡張、クラスタリングベースのネガティブサンプリング、および冗長性正則化という3つの最適化を提案しました。
実験結果
図2: 半教師付きマッチング(EM)のF1スコア。Sudowoodoはtrain+validデータから一様にサンプリングした500ペアを使用
私たちは、エンティティマッチングアプリケーションにおいて、半教師付きおよび教師なし設定で実験を行いました。具体的には、次の5つの一般的なデータセットを評価しました:Amazon-Google(AG)、DBLP-ACM(DA)、DBLP-Scholar(DS)、Walmart-Amazon(WA)、およびAbt-Buy(AB)。半教師付き設定では、既存の研究であるDeepMatcher、Ditto、およびRotomと比較しました。結果は、Sudowoodoが最先端の手法と比較してF1スコアで最大16%の性能向上を達成し、ラベル付きトレーニングインスタンスを3分の1に削減できることを示しています。
図3: 教師なしマッチング(EM)のF1スコア
教師なし設定では、最先端の手法であるZeroERおよびAutoFuzzyJoinと比較しました。Sudowoodoは、それぞれ平均してF1スコアで7.7%および8.9%の性能向上を達成しました。さらに、エンティティマッチングのブロッキング段階における適用実験も行い、この場合でもSudowoodoが最高のパフォーマンスを達成しました。
さらなるユースケース
エンティティマッチングに加えて、Sudowoodoはデータクリーニングやカラムタイプ検出といった他のアプリケーションにも適用できます。
データクリーニングでは、事前学習済みのデータ表現を活用して、潜在的に汚染されたデータから直接、エラー検出と修正の両段階を包括的に解決します。
カラムタイプ検出では、完全に教師なしの方法でテーブルのカラムエンコーダーを事前学習します。これにより、大量のテーブルから同じセマンティックタイプを持つカラムのペアを見つけることが可能になります。
これらのアプリケーションの詳細な手順や結果については、技術報告書をご覧ください。
Sudowoodoについて詳しく知りたい方は、私たちの論文のプレプリントをご確認ください。また、GitHubでソースコードを公開しています。