テンプレート埋め込みによるゼロショットトリプレット抽出

非構造化テキストからエンティティや関係などの構造化された知識を抽出することは、自然言語処理における基本的な課題です。トリプレット抽出は、生のテキストから直接トリプレットを導き出すことが目的である情報抽出において特に困難なタスクです。たとえば、「Hayao Miyazaki was born in Tokyo」という文からトリプレット(Hayao Miyazaki, born_in, Tokyo)を抽出します。
ほとんどのトリプレット抽出モデルには、抽出すべき対象関係を網羅した学習データが必要です。しかし、実際のアプリケーションでは、学習例がないテスト時に新しい未知の関係を抽出したいことがよくあります。これは、ゼロショットトリプレット抽出として知られています。未知の関係の処理は、新しいエンティティタイプや関係が時間の経過とともに絶えず出現する、知識ベースの構築のようなタスクにとって極めて重要です。しかし、未知の関係に対する信頼性の高い学習データを作成することは、非常に非常に難しいことで知られています。通常、共起に基づいてエンティティを関連付けるためにヒューリスティックに依存する遠隔監視などのノイズの多い方法を介して合成例を作成する必要があります。しかしこの方法では、誤った例が学習データに混入する可能性があります。T5 のような事前学習済み言語モデル (PLM) の最近の進歩により、ゼロショット学習が有望視されています。重要な考え方は、タスクをPLMのトレーニング目的に合った形式に再定式化することです。これにより、タスク固有のファインチューニングを必要とせずに、事前にトレーニングされた知識に基づいてモデルをより適切に一般化できます。
テンプレートの入力例
私たちの新しい論文は、このアプローチに基づいて、ZETT(Zero-shot Triplet Extraction via Template Infilling)と呼ばれるゼロショットトリプレット抽出の新しい方法を開発しました。ゼロショット抽出に関する以前の研究では、未知の関係の合成トレーニングデータを生成する必要があります。代わりに、私たちの方法ZETTはこのステップを完全に回避します。

ZETTの概要

ZETTの重要な考え方は、トリプレット抽出をテンプレート埋め込みタスクとすることです。各リレーションに対して、head エンティティと tail エンティティのプレースホルダーを含むテンプレートを使用します。例えば:
  
”<X>は<Y>で生まれました。”
 
エンティティのプレースホルダーをマスクし、与えられたコンテキストの範囲を生成するようにトレーニングすることで、見られる関係で事前トレーニングされた言語モデルをファインチューニングします。テスト時には、与えられたコンテキストで未知のリレーションのテンプレートを提供し、モデルにエンティティを埋めさせるだけです。
  
”(宮崎駿は)東京生まれだ”
 
抽出をテンプレートの埋め込みに変換することで、ZETTはタスクをT5のような生成LMの事前トレーニング目標に一致させます。これにより、特別な手法なしでゼロショットの一般化が可能になります。
FewRelとWiki-ZSLのデータセットでの実験では、ZETTが以前の最先端の方法よりも5〜6%精度が高いことがわかりました。また、ノイズの多い合成データに依存する方法と比較して、より安定したパフォーマンスを示します。

ZETTの主な利点

ZETTの主な利点には、次のようなものがあります。
  • 未知の関係に追加の学習データは不要:このメゾッドはモデルの事前学習タスクに合わせて調整されているため、追加のラベル付きデータは必要ありません。
  • テンプレートにエンコードされた知識を活用する: テンプレートは、エンティティの種類とその順序に関する有用な帰納的バイアスを提供します。
  • 合成データからのノイズの回避:合成データの生成をバイパスすることで、先行研究よりも安定性が向上します。
  • 導入が簡単:このアプローチは、複雑なコンポーネントなしで、標準的な事前学習済みLMを微調整するだけです。
プロンプトの定式化により、事前学習に基づいてモデルに有用なバイアスを簡単に挿入できます。これにより、先行研究と比較して、サンプル効率と汎化能力が向上します。全体として、ZETTはゼロショット抽出のためのシンプルでありながら強力な新しいアプローチを提供します。この手法は、知識ベース構築における新たなエンティティや関係の処理にも有望な意味合いを持っています。

持ち帰りポイント

このブログでは、ZETTを紹介し、ゼロショットトリプレット抽出のための実行可能なプロンプトベースのアプローチを示しました。抽出をテンプレートの埋め込みとして再定式化することで、この手法は、合成学習データなしで未知の関係に一般化できます。私たちの実験は、ZETTが概念的にシンプルで安定したソリューションを提供しながら、最先端の抽出精度を向上させることを示しています。今後は、自己教師ありの事前学習を活用するZETTのような手法が、情報抽出をオープンドメインの設定に適応させる上で重要な役割を果たすと考えています。
この研究を再現するためのコードベースを公開しました。
こちらへ: https://github.com/megagonlabs/zettZETTについてもっと知りたいですか?
AACL2023(2023年11月1日~4日)で発表されるAACLの出版物をご覧いただくか、研究プロジェクトのページをご覧ください。
著:Hayate Iso

LinkedIn と Twitter でフォローして、新しい研究やプロジェクトの最新情報を入手してください。

Share:

More Blog Posts: