Blog
CoCoSum: レビューから対比的および共通の意見を要約する
広く利用可能なオンラインの顧客レビューは、ホテル、レストラン、仕事など、さまざまな分野での意思決定を支援します。ユーザーは、最初の好みに基づいて(例:地域、価格帯、レストランの種類)候補のリストを作成した後、最終的な決定を下すためにレビューを慎重に読み込み、いくつかの選択肢を詳細に比較する必要があります。しかし、この方法は時間がかかり、情報が異なるレビューに散在しているため、候補間の違いと共通点を見つけるのが難しいという課題があります。 図1: 既存の単一エンティティ意見要約 ニューラル要約技術の最近の成功とオンラインレビュー・プラットフォームの成長により、マルチドキュメント意見要約に関する研究が注目されるようになりました。マルチドキュメント意見要約の目標は、特定のホテルや製品に関するレビューの中で顕著な意見を表現する要約を生成することです。 これまでのブログ記事では、意見要約に関する一連の取り組みを紹介しました。その中には、エンティティ固有の意見要約システムであるCoop、制御可能な意見要約システムであるOpinionDigest、カスタマイズ可能なレビュー要約のためのインタラクティブエクスプローラーであるExtremeReader、およびこれらの要約システムを強化する強力なアスペクトベースの意見抽出ツールであるSnippextが含まれます。 しかし、生成された要約は特定のホテルや製品に関する一般的で簡潔な情報を提供する一方で、複数の選択肢を比較するのに十分な情報を提供しない場合があります。そのため、ユーザーは「どちらを選ぶべきか?」という問いに悩むことが残ります。 本ブログ記事では、現在の意見要約の範囲を一歩進め、複数のエンティティを比較して対比的および共通の要約を生成することを目指すフレームワークCoCoSumを提案します。このフレームワークは、2つの基礎的な要約モデルで構成され、対比的および共通の要約を共同で生成します。 図2: 比較意見要約 比較意見要約
Coopを用いた具体的なレビュー要約の生成
YelpやGlassdoorのようなオンラインレビュー・プラットフォームの急速な成長に伴い、人々は飲食から就職活動に至るまで、顧客レビューに基づいて意思決定を行うようになっています。ある調査によると、オンライン顧客の94%以上が意思決定の前にレビューを読むとされています。しかし、毎日膨大な量のレビューがこれらのプラットフォームに投稿されているため、求めている有益な意見を見つけるのは困難です。このような状況に対する解決策が、意見要約です。 意見要約システムは、レビューから代表的な意見を抽出し、それを簡潔で分かりやすい形で要約します。これにより、ユーザーは多くのレビューを読まずに意思決定を行うことができます。 通常、テキスト要約システムは、大量の人間が書いた要約を使用してニューラルネットワークモデルをトレーニングすることで構築されます。しかし、意見要約システムの場合、顧客レビューには多様な意見が含まれているため、十分な量の人間が書いた要約を収集するのはコストがかかり、現実的ではありません。その結果、意見要約の研究の主な焦点は、人間が書いた要約を必要としない教師なしアプローチを用いて意見要約モデルを開発することにあります。 これまでのブログ記事では、意見要約に関する一連の取り組みを紹介してきました。その中には、制御可能な意見要約システムであるOpinionDigest、カスタマイズ可能なレビュー要約のためのインタラクティブエクスプローラーであるExtremeReader、および要約システムの両方を強化する強力なアスペクトベースの意見抽出ツールであるSnippextが含まれます。 本記事では、顧客レビューからより具体的な要約を生成するために教師なし意見要約を支援する新しい要約フレームワーク、Coopを紹介します。 既存の教師なし意見要約システムは、特定のレストランや製品に特化していない、あまりに一般的な要約を生成することが多いと分かりました。これは、ユーザーが生成された要約から各レストランや製品に関する具体的な情報を求めているため、好ましくありません。このため、教師なし意見要約モデルを改良するためにCoopを開発しました。より具体的な要約情報を生成することで、Coopの適用可能性が広がります。 教師なし意見要約 Coopフレームワークに入る前に、教師なし意見要約システムを構築する標準的な方法と、それがあまりにも一般的な要約を生成してしまう原因について説明します。 再構成を学習し要約を生成する 教師なし意見要約の一般的なアプローチは、再構成目標を持つエンコーダーデコーダーモデルを構築することです。図1に示されているように、このモデルはレビュー文を潜在空間内のベクトル表現に埋め込み、それを元のレビュー文にデコードする方法を学習します。大量のレビューを再構成することを学習することで、モデルは意味的に類似したレビューを潜在空間内で類似したベクトルにエンコードすることを学ぶはずです。
ユーザー生成テキストにおける低リソースのエンティティセット拡張:洞察と教訓
エンティティは、自然言語テキストを理解する上で欠かせない要素です。この目的のために、エンティティセット拡張(Entity Set Expansion, ESE)のタスクは、テキストコーパスと各関心概念(例:部屋の設備)に対応するエンティティのシードセット(例:「コーヒー」、「アイロン」)を基に、その概念に関連する包括的なエンティティのセット(例:「ミニバー」、「テレビユニット」)を取得することを目指します。このタスクに必要な大規模なトレーニングデータの取得には多大なコストがかかるため、既存の手法は、概念ごとにシードセットが10エンティティ未満といった低リソース環境に焦点を当てています。 図: 低リソースのエンティティセット拡張 最近の進展にもかかわらず、エンティティセット拡張(ESE)手法の報告された成功は、主に固有表現(例:「国」、「病気」)やWikipediaのような良く書かれたテキストに焦点を当てたベンチマークに限定されています。一方で、ユーザー生成レビューのようなテキストはほとんど評価対象に含まれていません。また、評価は概念のエンティティセットの実際のサイズにかかわらず、上位10~50位の予測に限定されています。その結果、報告されたESE手法の有効性がデータセット、ドメイン、評価方法に依存しているかどうかは不明のままです。本研究では、多くの現実世界のアプリケーションで広く使用され、良く書かれたテキストとは異なる特徴を持つことが知られているユーザー生成テキストに対する既存ESE手法の一般化可能性を調査します。 ユーザー生成テキストの特性 ユーザー生成テキストの既存のベンチマークが存在しないため、私たちはホテル、レストラン、求人の3つのドメインに対する新しいベンチマークを作成しました。そして、それらが厳選されたテキストのベンチマークと異なる新しい特性を発見しました。以下の図は、Wikiベンチマーク(厳選されたテキスト)とTripadvisorベンチマーク(ユーザー生成テキスト)の特性を示しています。 1)
Megagon KnowledgeHub: HR分野のAIアプリケーションのギャップを埋める多用途なナレッジリポジトリ
AI(人工知能)や大規模言語モデル(LLM)の最近の進展にもかかわらず、特定のドメインにおける現実世界のアプリケーションでは、依然として多くの未解決の問題や課題が存在しています。たとえば、人材(HR)分野では、アプリケーションが公平性、事実性、制御可能性、一貫性、解釈可能性、推論能力を提供する必要がありますが、現在の最先端技術にはこれらの能力が欠けていることが多いです。 私たちは、さまざまなソース(構造化データおよび非構造化データ)から得られるナレッジを活用することで、現在のLLMの限界の一部を克服できると考えています。Megagon Labsでは、大規模言語モデル(LLM)だけでなく、構造化データ(ナレッジベース [KB]、ナレッジグラフ [KG]、データベース [DB] など)や非構造化データ(テキスト)を活用する共生モデルおよびシステム(図1)を開発しています。これらは、連続的かつ(半)自動化された機械学習パラダイムの中で動作します。本記事では、Megagon KnowledgeHubと、私たちが研究および開発の中でこのナレッジハブをどのように活用しているかについて説明します。 図1. KnowledgeHubは、LLM、テキスト情報、ナレッジベースなどの補完的な複数のソースを統合しており、共生的なナレッジ表現とモデルを可能にします。KnowledgeHubを活用するアプリケーションは、公平性、事実性、制御可能性、一貫性、解釈可能性、および推論能力の継続的な向上の恩恵を受けます。
知識グラフ構築・学習プラットフォーム: エンジニアリングの側面から
ナレッジグラフは、特に機械学習モデルと、その複雑なドメイン固有のタスクにおける表現力・推論力・および説明力を改善するために、人間がキュレーションした構造化知識の重要な情報源です。Megagon Labsでは、ナレッジグラフ(KG)の変革力を認識しています。ナレッジグラフは単なる情報の保管庫ではなく、その表現力と推論力を進化させるダイナミックな構造体です。人事(HR)領域において、私たちは、人間によってキュレートされた知恵とデータ駆動型の洞察を相乗させる、エンティティレベルおよびインスタンスレベルの知識グラフを継続的に成長させるキュレーションを行っています。これらのKGは、研究プロジェクトと実世界のHRタスク(マッチング、電話選考予測、マッチング理由の説明など)の両方の知識源として機能します。 従来、これらのKGを改良し、下流のタスクで活用する反復プロセスは、非常に時間がかかり、手作業によるキュレーションや、KGのコンテンツやサイズが機械学習モデルのパフォーマンスに与える下流への影響を評価する難しさによって、しばしば行き詰まっていました。我々は、KGの構築と学習のライフサイクルを加速させるだけでなく、各反復が情報に基づいた意思決定をサポートするために必要なインテリジェンスを注入することを確実なものにするKGプラットフォームを設計しました。 このブログポストでは、私たちのKG構築・学習プラットフォームを解き明かし、機械学習を豊かにする役割を明らかにします。私たちの特徴的なパイプラインを探求し、データの出所とGNNトレーニングの粒度を掘り下げながら、私たちのシステムがどのようにKGを現実のユースケースの実用的な実世界のタスクにシームレスに統合することを促進するかを紹介します。 KGプラットフォーム 図1に示すように、我々のKG構築・学習プラットフォームの中心にあるのは、知識のライフサイクルです。この図は、Megagon KnowledgeHubからの派生KGの生成、標準ベンチマークとしての1つのゴールデン・データセット、モデル学習のための複数の派生データセット、そしてKGモデルが下流のタスクに果たす役割を示しています。 図1. KG構築・学習プラットフォームの構成要素 コンポーネントの詳細を説明しましょう。我々のプロセスは、構造化および非構造化データソースの両方を利用し、共有された階層スキーマの下で複数のエンティティレベルおよびインスタンスレベルのKGを構築することから始まります。我々のシステム内では、様々なソースからのデータは、データの前処理とKG構築パイプラインを通して知識への変成を受けます。例えば、図2に示すように、履歴書は単なるテキストという元の形を超え、KGのノードとなり、抽出された属性で強化され、より大きな知識グラフに統合されます。階層化されたKGを利用することで、エンティティや関係が適切なセマンティクス・レベルで集約され、モデル開発のためのより良い、より強力なシグナルが開発されます。
テンプレート埋め込みによるゼロショットトリプレット抽出
非構造化テキストからエンティティや関係などの構造化された知識を抽出することは、自然言語処理における基本的な課題です。トリプレット抽出は、生のテキストから直接トリプレットを導き出すことが目的である情報抽出において特に困難なタスクです。たとえば、「Hayao Miyazaki was born in Tokyo」という文からトリプレット(Hayao Miyazaki, born_in, Tokyo)を抽出します。 ほとんどのトリプレット抽出モデルには、抽出すべき対象関係を網羅した学習データが必要です。しかし、実際のアプリケーションでは、学習例がないテスト時に新しい未知の関係を抽出したいことがよくあります。これは、ゼロショットトリプレット抽出として知られています。未知の関係の処理は、新しいエンティティタイプや関係が時間の経過とともに絶えず出現する、知識ベースの構築のようなタスクにとって極めて重要です。しかし、未知の関係に対する信頼性の高い学習データを作成することは、非常に非常に難しいことで知られています。通常、共起に基づいてエンティティを関連付けるためにヒューリスティックに依存する遠隔監視などのノイズの多い方法を介して合成例を作成する必要があります。しかしこの方法では、誤った例が学習データに混入する可能性があります。T5