低リソース環境における言語モデルのファインチューニングのためのハイブリッドアクティブラーニング

サンプル取得の有効性と効率性を向上させるための2つの重要な設計を特定しました。1つは、ランダムサンプリングにより取得対象となる未ラベルデータのプールを縮小すること、もう1つは、多様性と不確実性というハイブリッド取得における目的を分離することです。既存手法の研究に基づき構築した新しいアクティブラーニング手法「TYROGUE」について説明します。

事前学習済み言語モデル(PLM)のファインチューニングは、NLPにおける標準的な手法となっていますが、データのラベリングは依然としてNLPにおける大きなボトルネックとなっています。この問題を軽減するために、アクティブラーニング(AL)手法は、感情分析や文書分類など、さまざまなNLPタスクで活用されてきました。

しかし、最先端のアクティブラーニング手法を用いたとしても、言語モデルのファインチューニングには依然として大量のラベル付きデータが必要であり、特にラベリングにかかるコストが高く、データが限られている分野では、これが障壁となっています。例えば、医学や法律の分野では、数万件のデータサンプルにラベルを付与することは、コストや時間、さらに専門家の確保やトレーニングの負担を考慮すると、現実的ではありません。

一方で、事前学習済み言語モデルの性能向上により、低リソース環境(例:1000件未満のラベル付きデータ)でのアクティブファインチューニングの可能性が注目されています。

このような低リソース環境では、アクティブラーニング手法のインタラクティブ性も課題となります。アクティブラベリングの各反復間での待ち時間(レイテンシー)が長いと、モデル開発プロセスのインタラクティブ性が損なわれ、データサイエンス実務者にとって大きなボトルネックとなります。特に、モデルの初期開発段階では、NLP研究者や実務者が迅速にALの反復を行いながらモデルの性能を評価したいため、低レイテンシーが不可欠です。

したがって、低リソースかつインタラクティブな環境において、ALアルゴリズムの設計がラベリングコストやデータ取得のレイテンシーにどのように影響を与えるのかを理解することが重要です。

既存のアクティブデータ取得関数

アクティブラーニング手法では、モデルの学習やファインチューニングのために、新しいデータポイントをインタラクティブかつ反復的に取得します。どのデータポイントを取得するかを決定する戦略はデータ取得関数(acquisition function)と呼ばれ、ALアルゴリズム設計の重要な要素です。

既存のALのデータ取得戦略は、不確実性(uncertainty)または多様性(diversity)に基づいています。不確実性に基づく手法は、現在のモデルが最も不確実なデータポイント(通常、決定境界付近のデータ)を選択します。一方、多様性に基づく手法は、選択されたデータポイント間の多様性を最大化することを目的とします。さらに、これらの両方の要素を組み合わせたハイブリッド手法も存在します。

しかし、これらのアプローチはすべて、各アクティブな反復において冗長なサンプルを取得してしまう傾向があることが、図を用いた分析で明らかになっています。

図1: AgNewsデータセットにおけるサンプル冗長性の課題の概説(Zhang et al., 2015)*

既存の手法は、反復内または反復間で冗長なサンプルを取得してしまう傾向があり、不要なデータポイントにラベリング予算を浪費するという問題を抱えています。これらの課題を調査した結果、新たなアクティブラーニング手法「TYROGUE」を提案します。

提案フレームワーク: TYROGUE

私たちは、サンプル取得の効果性と効率性を向上させる2つの重要な設計要素を特定しました。ランダムサンプリングを活用してラベルなしデータプールを縮小することで取得レイテンシーを削減し、また、ハイブリッドなデータ取得戦略において多様性(diversity)と不確実性(uncertainty)の目的を分離することで冗長性を低減します。

D1. 取得レイテンシーを削減するためのランダムサンプリング。最初の設計では、ラベルなしデータプールにランダムサンプリングを適用し、取得関数を適用する候補セットを小さくします。このフィルタリングにより、取得のレイテンシーを削減し、インタラクティブな環境における既存手法の適用におけるボトルネックを解消できます。計算コストの大幅な削減が可能である一方で、低リソース環境ではこの手法による性能への影響は限定的であることを実証しました。

D2. 多様性と不確実性サンプリングを独立して適用することで冗長性を削減。2つ目の設計では、多様性サンプリングと不確実性サンプリングを効果的に組み合わせることで、反復内および反復間での冗長性を回避します。既存のハイブリッド手法は、多様性と不確実性の目的を統合した単一の取得関数を使用することが多く、この戦略では一方の目的が他方よりも優先される傾向があります。本手法では2段階の選択プロセスを採用します。まず、多様性サンプリングを適用し、クラスタの中心点を選択することで、反復内での冗長性を削減します。その後、不確実性サンプリングを適用し、エントロピーが高いデータポイントを選択することで、反復間での冗長性を回避します。

図2:TYROGUEのパイプライン全体像

評価結果

ラベリングコストとデータ取得レイテンシーの削減を示すため、TYROGUEを最先端(SOTA)の不確実性ベース(Entropy)、多様性ベース(FTbertKM)、およびハイブリッド(BADGEALPSCAL)手法と比較しました。この比較は、トピック分類、自然言語推論、パラフレーズ検出などのタスクに焦点を当てた8つの代表的なデータセットを用いて実施しました。
ラベリングコストの削減を評価するため、完全教師あり学習(全学習データを使用)でファインチューニングしたモデルと同等の予測性能を達成するために必要なラベル付きデータの数を測定しました。具体的には、完全教師ありモデルのF1スコアの85%および95%を目標値として設定しました。
図3に示される結果では、TYROGUEを用いることで、モデルは2番目に優れたデータ取得アルゴリズムと比較して、最大43%少ないラベル付きトレーニングデータで同等のF1スコアを達成できることが確認されました。

図3: 完全なトレーニングセットで学習したモデルのF1スコアの85%および95%を達成するための、1回の反復あたりの平均ラベリングコスト(データサンプル数)

反復的なモデル開発とデバッグのインタラクティブな体験を確保するためには、データ取得アルゴリズムのレイテンシーが重要です。図4では、各データ取得手法において、次のバッチのサンプルを選択し、アノテーションを付与するまでにかかる時間を示しています。この結果は、すべてのアクティブな反復および5回のランダム試行の平均値に基づいています。TYROGUEは、QQPデータセットにおいてCALと比較して最大11倍の実行時間削減を達成し、8つのデータセットのうち6つで最も高速なアルゴリズムとなりました。

図4: 5回のランダム試行における1回の反復あたりの平均データ取得時間
他の手法とは異なり、TYROGUEの実行時間はデータセットのサイズが増加しても増大せず、データ取得のレイテンシーを大幅に削減します。

今後の展望

適応的なデータ取得: 不確実性と多様性のトレードオフは、アクティブデータ取得アルゴリズムにおいて重要な要素です。私たちは、TYROGUEと本研究の知見が、両者のバランスを取る適応的なデータ取得関数の研究の基盤を築くと考えています。今後の研究では、モデルの性能やデータセットの特性を考慮しながら、不確実性と多様性の最適なバランスを達成する戦略を探求することを目指します。

実用システムへの導入: 私たちの提案する多段階の適応的アプローチは、あらゆるアノテーションプラットフォームに組み込むことができると考えています。このようなフレームワークは、モデリングの初期段階における迅速な反復を可能にします。そのため、TYROGUEを既存のアノテーションプラットフォームへ統合する方法を検討することは、興味深い研究課題です。

実務者向けの透明性と制御: インタラクティブなアクティブラーニングは、まだ十分に研究されていない分野であり、今後の研究が必要です。本研究で提案した設計は、データ取得の目的を調整する際にユーザーに制御権を与えるものです。しかし、フレームワークの透明性やモデルの解釈性が、制御パラメータの調整時にユーザーの体験へ与える影響を理解することも不可欠です。

詳細については、EMNLP findingsに掲載された論文をご覧ください。

*(a)はBERT埋め込みの2次元投影を示し、色は正解のクラスラベルを表します。(b)では、不確実性ベースの手法が1回の反復内で特定の領域から類似したデータポイントを取得する傾向があることを示しています(赤枠参照)。(c)では、多様性ベースの手法が前回の反復で取得されたサンプルと類似したデータポイントを選択する傾向があることを示しています(青い円参照)。(d)では、ハイブリッド手法が、どの目的を優先するかによってサンプルの冗長性の影響を受ける可能性があることを示しています。例えば、BADGE [Ash et al., 2020]やALPS [Yuan et al., 2020]は多様性を重視し、CAL [Margatina et al., 2021]は不確実性を重視する設計になっています。

執筆者:Dan Zhang、Megagon Labs

[原文へ – 2022/12/2]

(翻訳:Megagon Labs 東京オフィス

この記事をシェアする
1 Min Read
April 8, 2025
私たちのBlue v0.9は、エンタープライズ環境でエージェント型ワークフローを構築・展開するためのオープンソースフレームワークです。従来のAIフレームワークとは異なり、Blueは、スケーラビリティ、可観測性、設定の柔軟性、既存のインフラとの統合性など、エンタープライズ規模の要件を念頭にデザインされています。
1 Min Read
February 5, 2025
MCRankベンチマークとEXSIR手法を用いることで、構造化された推論によりLLMの性能がこれらの難解なタスクで大幅に向上することを示しました。