ユーザー生成テキストにおける低リソースのエンティティセット拡張:洞察と教訓

エンティティは、自然言語テキストを理解する上で欠かせない要素です。この目的のために、エンティティセット拡張(Entity Set Expansion, ESE)のタスクは、テキストコーパスと各関心概念(例:部屋の設備)に対応するエンティティのシードセット(例:「コーヒー」、「アイロン」)を基に、その概念に関連する包括的なエンティティのセット(例:「ミニバー」、「テレビユニット」)を取得することを目指します。このタスクに必要な大規模なトレーニングデータの取得には多大なコストがかかるため、既存の手法は、概念ごとにシードセットが10エンティティ未満といった低リソース環境に焦点を当てています。

図: 低リソースのエンティティセット拡張

最近の進展にもかかわらず、エンティティセット拡張(ESE)手法の報告された成功は、主に固有表現(例:「国」、「病気」)やWikipediaのような良く書かれたテキストに焦点を当てたベンチマークに限定されています。一方で、ユーザー生成レビューのようなテキストはほとんど評価対象に含まれていません。また、評価は概念のエンティティセットの実際のサイズにかかわらず、上位10~50位の予測に限定されています。その結果、報告されたESE手法の有効性がデータセット、ドメイン、評価方法に依存しているかどうかは不明のままです。本研究では、多くの現実世界のアプリケーションで広く使用され、良く書かれたテキストとは異なる特徴を持つことが知られているユーザー生成テキストに対する既存ESE手法の一般化可能性を調査します。

ユーザー生成テキストの特性

ユーザー生成テキストの既存のベンチマークが存在しないため、私たちはホテル、レストラン、求人の3つのドメインに対する新しいベンチマークを作成しました。そして、それらが厳選されたテキストのベンチマークと異なる新しい特性を発見しました。以下の図は、Wikiベンチマーク(厳選されたテキスト)とTripadvisorベンチマーク(ユーザー生成テキスト)の特性を示しています。

1) Wikiの概念は明確に定義されていますが、Tripadvisorの概念はドメイン固有であり、しばしば意味が重複しています。その結果、1つのエンティティが複数の概念に属することがあり、これを多面的エンティティ(青色で強調)と呼びます。

2) Wikiでは、概念とエンティティのペアの真実値(Ground Truth)は外部リソースや常識を参照することで取得できます。しかし、Tripadvisorでは、一部の概念が開放的かつ主観的であるため、曖昧性が生じます。たとえば、「シビックセンター」というエンティティは、文脈によっては観光地として扱われる場合もあれば、近隣の場所として扱われる場合もあります。このようなエンティティを曖昧なエンティティと呼びます。

3) 非固有名エンティティ(例:「コーヒー」、「テレビユニット」)は、固有名ではない名詞句を指します。すべてのドメインでよく見られるものの、ベンチマークではほとんど無視されています。それでも、TripadvisorにはWikiの2倍の非固有名エンティティが含まれています。

4) 同一ドメイン内の異なる概念は、多様なカーディナリティ(対応するエンティティセット内のエンティティ数の違い)を示す場合があります。そのため、単に上位k件の予測を評価するだけでは、パフォーマンスの信頼性の高い推定ができない可能性があります。以下の表は、複数のベンチマークにおける概念サイズの分布を示しています。

実験の設定

シードセットを拡張するために、エンティティセット拡張(ESE)手法は通常、テキストコーパスから抽出された候補エンティティをランク付けします。これらの手法は大きく次の2つに分類されます。(a) コーパスベースの手法:コーパスから学習した文脈的特徴やパターンを使用して候補エンティティをランク付けする手法。(b) 言語モデルベースの手法:大規模事前学習済み言語モデルに蓄積されたナレッジをプロービングして候補エンティティをランク付けする手法。私たちは、以下の代表的なESE手法を選定しました。

a) SetExpan: 最先端のコーパスベース手法で、ノイズの多いスキップグラム特徴をフィルタリングしながら候補エンティティを反復的にランク付けします。

b) Embedding Baseline (Emb-Base): コーパスベースの単純なベースライン手法で、BERTを使用してエンティティを言及する文の文脈埋め込みを平均化してエンティティ埋め込みを生成します。

c) CGExpan: 最先端の言語モデルベース手法で、Hearstパターンをプロンプトとして言語モデルを利用するほか、概念名のガイダンスなどの特徴を用いて反復的に拡張を行います。

d) LM Probing Baseline (LM-Base): 言語モデルベースの単純なベースライン手法で、反復的な拡張や概念名のガイダンスなどの追加機能を排除したものです。

図: 実験の設定(手法とベンチマーク)

私たちは、以下の2種類のベンチマークでこれらの手法を評価しました。Wikipedia(Wiki)やニュース記事(APR)などの厳選されたテキスト(WCT)を基にしたベンチマークと、ホテル(Tripadvisor)やレストラン(Yelp)のレビューのようなユーザー生成テキスト(UGT)を基にしたベンチマークです。厳選されたテキスト(WCT)のベンチマークは、SetExpanやCGExpanといった最先端の手法(SOTA)のパフォーマンスを評価するために一般的に使用されてきました。一方で、本ベンチマーク研究のために、ユーザー生成テキスト(UGT)のベンチマークを新たに作成しました。

WCTおよびUGTベンチマーク間で概念サイズの多様性があるため、ESE手法を厳密に評価するために、新しい指標であるgold-kでの平均適合率(MAP@gold-k)を導入しました。ここで、gold-kとは、エンティティの実際の概念サイズを指します。たとえば、概念「国」については、gold-kは195です。

実験結果

ここでは、私たちの研究から得られた主な洞察をまとめます。

1) ユーザー生成テキストに基づくベンチマークは、厳選されたベンチマークと比較して、多面的エンティティが最大10倍、非固有名エンティティが2倍多く、曖昧性が43%高いことが分かりました。

2) 既存の評価指標は、ESE手法の現実世界でのパフォーマンスを過大評価する傾向があり、大規模なエンティティセットを持つ概念を評価する際には信頼性が低い可能性があります。以下の図は、異なるk値に対して、さまざまな概念におけるパフォーマンスの低下を示しています。私たちは、概念サイズをkgとした場合のgold-kでの平均適合率(MAP@gold-k)を推定することを提案します。この指標は、さまざまなサイズの概念に適応し、再現率のより良い推定を提供することができます。

3) ベースライン手法と比較して、最先端の手法はユーザー生成テキストにおいて性能が劣る傾向があり、これらの手法が厳選されたテキストを超えて効果的に一般化できていないことを示しています。

4) ユニークな特性を持つエンティティ、つまり、多面的、曖昧、非固有名のエンティティでは、パフォーマンスが低下します。以下の図は、非固有名エンティティ(サブ図aの赤いバー)および曖昧なエンティティ(サブ図bの赤いバー)に対するESE手法のパフォーマンスを、それらのユニークな特性を持たないエンティティ(サブ図aおよびサブ図bの緑のバー)と比較したものを示しています。最先端の手法では、パフォーマンス低下がより顕著です。このため、特徴的なエンティティ特性が、ユーザー生成テキストにおける最先端手法のパフォーマンスの低さを部分的に説明しています。

まとめ

私たちの調査結果は、ユーザー生成テキストがエンティティセット拡張タスクに新たな課題をもたらすことを示しています。特に、エンティティが曖昧であったり、非固有名であったり、多面的である場合に困難が生じます。また、最先端の手法はユーザー生成テキストに対してあまり効果的に一般化できず、しばしばより単純なベースライン手法に劣ることがわかりました。そのため、ユーザー生成テキスト向けのエンティティセット拡張手法を開発するための今後の研究の可能性が示唆されます。

新しいベンチマークをこちらで公開しています: https://github.com/megagonlabs/eseBench

私たちの論文「Low-resource Entity Set Expansion: A Comprehensive Study on User-generated Text」(著者: Yutong Shao, Nikita Bhutani, Sajjadur Rahman, Estevam Hruschka)は、NAACL Findings 2022に採択されました。

Share:

More Blog Posts: