Watchog: コントラスト学習を活用した表データ理解とカラムアノテーションの強化

データが最も重要な資源となる中、リレーショナルWebテーブルに含まれる膨大な情報を活用するこのフレームワークは不可欠なものとなっています。Watchogは、企業が製品カタログ、価格表、カスタマーデータリポジトリから貴重なインサイトを抽出し、それを活用して価格戦略を最適化し、顧客満足度とロイヤルティを向上させるためのパーソナライズされたレコメンドを提供することができるようになります。

急速に進化するデジタル環境において、データが最も重要な資源となる中、リレーショナルWebテーブルに含まれる膨大な情報を活用する能力は不可欠なものとなっています。Webテーブルは、スプレッドシートと同様に、通常、行と列で構成されるWebページ上の構造化データの表現です。リレーショナルWebテーブルは、スキーママッチング、データセット探索、データクリーニングなど、さまざまなデータマネジメントアプリケーションにとって貴重なリソースとなります。そのため、特にカラムの意味的な型や関係を特定する場合、テーブルアノテーションはデータマネジメントの分野において重要な研究テーマとなっています。Webテーブルに対して、テーブルアノテーションは、テーブル内のさまざまな部分に注釈を付与し、さらなる検索や分析のためにより有用なシグナルを提供することを目的とします。テーブルアノテーションは、セル、行、列、テーブル全体といった異なる粒度で適用することができます。

本研究では、カラムアノテーションのタスクに焦点を当て、意味的型検出、関係抽出、カラム補完を対象としました。意味的型検出と関係抽出は、それぞれ、単一のカラムまたはカラムのペアに対して型を付与することを目的とします。カラム補完は、最初の数列が与えられたときに、テーブルに含まれる可能性のあるカラムの集合を予測することを目的とします。これらのタスクに対して、これまで多くの研究で事前学習済み言語モデル(PLM)が用いられ、良好な結果が得られていますが、それらの手法はPLMのファインチューニングに必要な高品質なアノテーションデータセットの存在に大きく依存しています。しかし、大規模なアノテーションデータセットを確保することは、多くの理由から困難です。まず、テーブルのコーパスは膨大であり、データの品質は比較的低いため、人手によるアノテーションが難しくなります。次に、既存のベンチマークデータセットには常にロングテール分布が存在します。データセット全体のカーディナリティが十分に大きかったとしても、多くのクラスではラベル付きインスタンスが不足している可能性があります。その結果、教師あり学習の設定下であっても、少数クラスの型に関する十分なシグナルをモデルが捉えることが難しくなります。

図1:フレームワークの全体像

私たちは、このような課題に対処するためにWatchogフレームワーク(図1)を提案しました。Watchogは、自己教師あり学習のパラダイムにおいて重要な手法であるコントラスト学習を採用し、大規模なラベルなしのテーブルコーパスからテーブルの表現を完全な教師なし学習の形で自動的に学習します。コントラスト学習では、カラムエンコーダを訓練し、関連するカラム同士が埋め込み空間で近接するような表現を得ることを目指します。これは、データ拡張(DA)操作によって作成された同じカラムの異なるビューを正例とし、それ以外を負例として扱うことで実現されます。NLPタスク向けのDA手法を参考に、私たちはテーブル関連のタスクに適用可能なDAオペレーターをトークンレベル、セルレベル、カラムレベルの3つのレベルで開発しました。その結果、得られた正例はカラム情報を考慮したものとなります。また、メタデータを利用して、同じメタデータを持つカラムペアを正例として扱い、コントラスト学習のプロセスを改善しました。

コントラスト学習の結果、カラム情報を考慮したカラムエンコーダが得られます。その後、異なる下流タスクに対してファインチューニングを行いました。従来の手法とは異なり、本手法ではトレーニングセットのサイズを従来研究の最大10%にまで削減することが可能です。この問題に対処するため、私たちは疑似ラベリング(Pseudo-labeling)を用いました。この手法では、ラベルなしコーパスを活用し、「ソフトラベル」(確定的なラベルではなく確率分布)を用いてより多くの学習データを生成します。このアプローチでは、現在のイテレーションでターゲットモデルの予測を利用し、ラベル付きインスタンスとラベルなしインスタンスを補間することで学習信号を取得します。これにより、人手によるアノテーションを必要とせず、大量のラベルなしテーブルコーパスからより豊富な学習信号を得ることが可能になります。

結果の取得

図2: 主な結果

私たちは、3つの代表的なベンチマークデータセットを用いて実験を行いました。具体的には、WikiTableにおける意味的型検出(ST)、WikiTableにおける関係抽出(RE)、およびViznetにおける意味的型検出のタスクを評価対象としました。半教師あり学習の設定での性能を評価するため、元のデータセットから一様ランダムサンプリングを実施し、ラベル付き学習インスタンスの最大10%を用いてファインチューニングを行いました。

図2に示されている結果によると、Watchogはラベル付き学習インスタンスが不足している状況において、従来の手法を大幅に上回る性能を発揮しました。これは、コントラスト学習を活用した本手法が、人手によるアノテーションに依存せずに追加の情報を取得できることを示しています。また、Watchogは、自己教師あり学習を用いたテーブル表現学習を行うStarmie(従来の研究)と比較しても顕著な改善を示しました。この対照的な結果は、本研究で提案した疑似ラベリング技術が、ラベル付き学習インスタンスのカーディナリティが低い場合において、ファインチューニングの全体的な性能向上に寄与することを示唆しています。

Watchogに関する詳細は、論文「Watchog: A Light-weight Contrastive Learning-based Framework for Column Annotation」をご参照ください。

また、GitHubにてソースコードを公開しています。

執筆者:Jin Wang、Megagon Labs

[原文へ – 2024/6/3]

翻訳:Megagon Labs 東京オフィス

この記事をシェアする
1 Min Read
February 5, 2025
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。
1 Min Read
December 16, 2024
複合AIシステムの最適化フレームワークは、精度・コスト・遅延などの多目的最適化や複数プランの最適化、特に予算などの制約管理を含む幅広い目標を達成すべきであると述べています。これらの最適化目標は決して網羅的ではありませんが、エンタープライズ環境において重要な要素です。
4 Min Read
November 7, 2024
AmbigNLG は、NLG の指示における曖昧な仕様を特定し、それを改善することで出力品質を向上させる手法 です。本チュートリアルでは、AmbigNLG を活用する方法について解説します。このチュートリアルでは、以下のステップを順に説明します。 ・指示の中に含まれる曖昧な要素を特定する ・曖昧な指示を明確化し、より効果的なテキスト生成を実現する ・指示の明確化の有無による出力テキストの比較を行う ・インタラクティブな曖昧性軽減を活用し、下流タスクの改善を図る