Snippext: 少量の学習データで実現するオピニオンマイニング・パイプライン

人々の感情を理解することはあらゆるビジネスにおいて前例のないインサイトを引き出すことにつながります。そのため、オピニオンマイニングは急速に普及しています。しかし、高品質な情報抽出・分析が可能な高適合率で、高再現率なオピニオンマイニング・パイプラインを構築するには、通常、膨大な量の学習データを必要とします。

Snippextはカスタマーレビューなどのユーザーによる生成コンテンツからアスペクト (Aspect) 、意見 (Opinions) 、感情 (Sentiments) を抽出する最先端の (SOTA) オピニオンマイニング・パイプラインです。Snippextにより、通常必要とされる学習データを50％以上削減することができます。その特徴は、

既存の学習データからラベル付きの学習データを自動生成するデータ・オーギュメンテーション(自然言語処理（NLP）で一般的に使用されるセンテンス分類器の学習方法にヒントを得たものです)
大量の非ラベルデータを活用した半教師付き学習

これらの最適化により、いくつかのオピニオンマイニングタスクでは、SnippextがこれまでのSOTAの成果に匹敵する動作が可能になるばかりか、それを上回ることさえあります。また、はるかにきめ細かな意見も抽出するため、下流タスクでの活用に新たな機会が期待できます。

Megagon Labsは、Snippextの ’アスペクト抽出 (AE) ’ と’アスペクトセンチメント分類 (ASC) ’モジュールをアスペクトベースセンチメント分析 (ABSA) タスクに適用し、そのパフォーマンスを評価しました。結果、Snippextは元のデータセットの半分または3分の1の量でSOTAの性能を達成することができ、データセット全体を適用した場合、アスペクトベースの感情分析タスクにおいて、SOTAモデルを最大で3.55%上回る結果を残しました。

Snippextは、ホスピタリティ、食品、Eコマースなど多くのドメインにおける展開を成功させています。これらは本システムのほんの始まりに過ぎません。Megagon Labsは現在もSnippextに必要なラベル付き学習データ量をさらに削減するために、マルチタスク学習やアクティブラーニングなどの最適化の有効な条件を模索しています。

Demo

Paper

Video

Snippext: 少量の学習データで実現するオピニオンマイニング・パイプライン

Other Projects:

Rotom: 多目的データオーグメンテーションフレームワークで高品質な機械学習モデルの学習を実現する

Ditto: 事前学習済み言語モデルによるディープエンティティマッチング

Datasets: 公開データセット

ExtremeReader: レビュー要約の解釈性を実現するインタラクティブなエクスプローラー

GiNZA: 日本語自然言語処理オープンソースライブラリ

HappyDB: 100,000の幸せの瞬間を集めたデータベース