ディープラーニングは、コンピュータビジョン、自然言語処理、データマネージメントなどのコンピュータサイエンスのほぼすべてのフィールドに革命をもたらしています。一方、ディープニューラルネットの成功は大規模かつ高品質なラベル付き学習データセットが用意できるかに激しく左右されるため、目的を達成するためにはデータ変換により既存の先例からさらなる学習ケースを生成するデータ拡張(Data Augmentation / DA) 手法が一般的になっています。
Megagon Labsは、少数のラベル付き学習データ(例えば200ケース)で高品質なモデルを学習させるための多目的データ補強フレームワーク「Rotom」を提案しています。Rotomは、シーケンス分類のようなシンプルなタスクの定式化により、エンティティマッチングやデータクリーニングにおけるエラー検出やテキスト分類など、データマネージメントや自然言語処理に関する幅広いタスクに対応することができます。Rotomは、(1) 事前に学習したSeq2Seqモデルにより多様かつ自然な拡張シーケンスを生成し、(2) メタ学習により複数のDAオペレータが生成したシーケンスを組み合わせるための効果的なポリシーモデルを学習します。
デモ
論文
Rotom: A Meta-Learned Data Augmentation Framework for Entity Matching, Data Cleaning, Text Classification, and Beyond
Zhengjie Miao, Yuliang Li, Xiaolan Wang – SIGMOD 2021
ブログ
[原文へ]
(翻訳:Megagon Labs Tokyo)