Demo

Paper

Rotom: 多目的データオーグメンテーションフレームワークで高品質な機械学習モデルの学習を実現する

ディープラーニングは、コンピュータビジョン、自然言語処理、データマネージメントなどのコンピュータサイエンスのほぼすべてのフィールドに革命をもたらしています。一方、ディープニューラルネットの成功は大規模かつ高品質なラベル付き学習データセットが用意できるかに激しく左右されるため、目的を達成するためにはデータ変換により既存の先例からさらなる学習ケースを生成するデータ拡張（Data Augmentation / DA) 手法が一般的になっています。

Megagon Labsは、少数のラベル付き学習データ（例えば200ケース）で高品質なモデルを学習させるための多目的データ補強フレームワーク「Rotom」を提案しています。Rotomは、シーケンス分類のようなシンプルなタスクの定式化により、エンティティマッチングやデータクリーニングにおけるエラー検出やテキスト分類など、データマネージメントや自然言語処理に関する幅広いタスクに対応することができます。Rotomは、(1) 事前に学習したSeq2Seqモデルにより多様かつ自然な拡張シーケンスを生成し、(2) メタ学習により複数のDAオペレータが生成したシーケンスを組み合わせるための効果的なポリシーモデルを学習します。

Demo

Paper

Rotom: 多目的データオーグメンテーションフレームワークで高品質な機械学習モデルの学習を実現する

デモ

論文

ブログ

Other Projects:

Ditto: 事前学習済み言語モデルによるディープエンティティマッチング

Snippext: 少量の学習データで実現するオピニオンマイニング・パイプライン

Datasets: 公開データセット

ExtremeReader: レビュー要約の解釈性を実現するインタラクティブなエクスプローラー

GiNZA: 日本語自然言語処理オープンソースライブラリ

HappyDB: 100,000の幸せの瞬間を集めたデータベース