エンティティ・マッチング(EM)とは、カスタマー、プロダクト、企業、出版物など、実世界の同じエンティティを参照するエンティティ・レコードのペアを見つける問題です。データ統合における最も根本的な問題の1つであるEMは、データクリーニング、データ統合、知識ベースの構築、エンティティの類似性の検索など、幅広い分野から必要とされるニーズの高い技術です。
Megagon Labsは、BERTのような事前学習済のTransformerベースの言語モデル(LM)を応用した新しいエンティティマッチングシステムであるDittoを公開します。Dittoは言語モデルを微調整することで解決可能なシーケンス分類としてキャストするというシンプルなアーキテクチャで構成されています。さらに、Dittoは、マッチングモデルの性能をさらに高めるために、ドメイン知識の注入、テキストの要約、データの増強などの一連の最適化技術を適用します。実際のベンチマークデータを用いた実験の結果、Dittoは一貫して最先端(SOTA)のマッチング品質を達成し、F1においては従来のエンティティマッチング ソリューションを最大29%も上回る結果に達しました。
既存のエンティティマッチング アプローチと比較し、Dittoは3つ点において他にはない特徴を備えています:
-
事前学習済言語モデルを活用することで、言語を高度に理解します。
-
ノイズが多く、サイズが小さく、テキストが多いエンティティデータに対してより堅牢に対処します。
-
ラベル効率が良いです。例えば、Dittoは少量のラベルで同等のマッチング品質を得ることができます。
Paper
Deep Entity Matching with Pre-Trained Language Models (PDF)
Yuliang Li, Jinfeng Li, Yoshihiko Suhara, Anhai Doan, Wang-Chiew Tan- VLDB 2021