Ditto: 事前学習済み言語モデルによるディープエンティティマッチング

エンティティ・マッチング（EM）とは、カスタマー、プロダクト、企業、出版物など、実世界の同じエンティティを参照するエンティティ・レコードのペアを見つける問題です。データ統合における最も根本的な問題の1つであるEMは、データクリーニング、データ統合、知識ベースの構築、エンティティの類似性の検索など、幅広い分野から必要とされるニーズの高い技術です。

Megagon Labsは、BERTのような事前学習済のTransformerベースの言語モデル（LM）を応用した新しいエンティティマッチングシステムであるDittoを公開します。Dittoは言語モデルを微調整することで解決可能なシーケンス分類としてキャストするというシンプルなアーキテクチャで構成されています。さらに、Dittoは、マッチングモデルの性能をさらに高めるために、ドメイン知識の注入、テキストの要約、データの増強などの一連の最適化技術を適用します。実際のベンチマークデータを用いた実験の結果、Dittoは一貫して最先端（SOTA）のマッチング品質を達成し、F1においては従来のエンティティマッチングソリューションを最大29%も上回る結果に達しました。

既存のエンティティマッチングアプローチと比較し、Dittoは3つ点において他にはない特徴を備えています:

事前学習済言語モデルを活用することで、言語を高度に理解します。
ノイズが多く、サイズが小さく、テキストが多いエンティティデータに対してより堅牢に対処します。
ラベル効率が良いです。例えば、Dittoは少量のラベルで同等のマッチング品質を得ることができます。

デモを見る

Paper

Deep Entity Matching with Pre-Trained Language Models (PDF)
Yuliang Li, Jinfeng Li, Yoshihiko Suhara, Anhai Doan, Wang-Chiew Tan- VLDB 2021

Demo

Paper

Ditto: 事前学習済み言語モデルによるディープエンティティマッチング

Paper

Other Projects:

Rotom: 多目的データオーグメンテーションフレームワークで高品質な機械学習モデルの学習を実現する

Snippext: 少量の学習データで実現するオピニオンマイニング・パイプライン

Datasets: 公開データセット

ExtremeReader: レビュー要約の解釈性を実現するインタラクティブなエクスプローラー

GiNZA: 日本語自然言語処理オープンソースライブラリ

HappyDB: 100,000の幸せの瞬間を集めたデータベース

Ditto: 事前学習済み言語モデルによるディープ エンティティマッチング

Paper

Other Projects:

Ditto: 事前学習済み言語モデルによるディープエンティティマッチング