大規模言語モデル(LLM)が自然言語処理(NLP)タスクに革命をもたらしたことは、非常に興味深い事実です。その性能は非常に優れており、データのアノテーションを人間よりも迅速かつ低コストで実行できる可能性を示しています。しかし、LLMは時に誤りを犯します。特に、入力が複雑であったり、タスクが特定のドメインに依存していたりする場合に、誤ったラベルを生成する可能性があります。さらに、LLMによって学習データにバイアスが導入されることもあります。
では、この問題をどのように解決すればよいのでしょうか?答えは協働(コラボレーション)です。LLMが人間のアノテーターに取って代わるのではなく、両者の強みを活かして、より正確で信頼性の高いアノテーションを取得することが求められます。本記事では、データアノテーションにおいてLLMを協働者として効果的に活用する方法について説明します。
人間とLLMの協働アノテーションフレームワーク
図1: (左)人間とLLMの協働アノテーションフレームワーク。(右)フレームワークの各ステップにおける入力と出力。
ステップ1: LLMがラベルを予測し、説明を生成する。
ステップ2: 検証モデル(Verifier)がLLMのラベルと説明を評価する。
ステップ3: 検証スコアが最も低いインスタンスを、人間のアノテーターが再アノテーションする。
私たちは、データアノテーションの正確性と信頼性を確保するための多段階の人間-LLM協働フレームワークを提案します。まず、LLMがラベルを予測し、説明を生成します。次に、訓練された検証モデル(Verifier)がLLMのラベルと説明を評価します。最後に、検証スコアが最も低いラベルの一部を人間のアノテーターが再アノテーションします。
このフレームワークの重要な特徴は、LLMの自己説明機能を活用してラベリングの決定プロセスを明示することです。ステップ2では、LLMが生成した説明が、LLMの推論プロセスに関する追加情報を提供し、検証モデルの評価精度向上に寄与します [Marasovic et al., 2022]。また、ステップ3では、LLMの説明が人間のアノテーターにとって補助的な情報となり、LLMを協働者として信頼する手助けとなります [Wang et al., 2023]。
このフレームワークにおける効果的な協働を実現するため、私たちはCHI 2024の論文で以下の2つの研究課題を探求しました。
- RQ1: 入力データ、LLMのラベル、およびLLMの説明を活用して、LLMのラベルをどのように検証できるか?
- RQ2: LLMが生成したラベルと説明を提供することで、人間の再アノテーションはどのように影響を受けるか?
以下では、これらの研究課題について詳しく説明します。
検証モデル: 実験と結果
私たちは、LLMが生成したラベルにスコアを割り当てる検証モデル(Verifier)を開発しました。このスコアを用いることで、誤っている可能性のあるラベルを特定し、人間がすでに正しいラベルを再アノテーションする手間を省くことができます。
LLMは、テキストサンプルを入力として受け取り、ラベルと説明を出力します。私たちは、このLLMによるアノテーションプロセスにおいて、入力データ、ラベル、説明の3つの側面から特徴を収集しました。最終的に、70個の入力特徴(例: テキストの一貫性、パープレキシティ、可読性など)、7個のラベル特徴(例: ロジット、エントロピー)、73個の説明特徴(例: 説明の十分性、シミュラビリティ)を抽出しました。
さまざまなデータセットを用いた実験を行った結果、私たちの検証モデルは、LLMの不確実性を推定するために広く用いられているロジットベースのベースライン手法よりも、誤ったLLMラベルをより適切に特定できることが確認されました。これは、入力データや説明から得られる追加のシグナルが、誤ったLLMラベルを識別する上で有用であることを示しています。
図2: 下位100、200、300インスタンスにおける検証モデルの精度
人間による再アノテーション: 被験者実験と結果
再アノテーションのステップでは、検証モデルによって選択されたLLMラベルの一部を人間が再ラベリングします。
私たちは、人間の再アノテーションのパフォーマンスを向上させる最適な戦略を特定するために被験者実験を行い、(1)LLMの出力を一切提示しない、(2)LLMが生成したラベルのみを提示する、(3)LLMが生成したラベルと説明の両方を提示する、という3つの条件を比較しました。
(a) LLMの支援なし
(b) LLMのラベルあり
(c) LLMのラベルと説明あり
図3: 被験者実験における再アノテーション戦略ごとのタスクインターフェース
各データポイントについて、参加者はLLMの支援の有無にかかわらずデータを確認し、その後、最終的なアノテーションを提供しました。
図4: AI支援の有無による個々のアノテーターの精度:緑の三角マーカーは平均精度を示しています。
SNLIデータセットにおいては、LLMのラベルと説明の両方を提供した場合、LLMのラベルのみを提供した場合や支援なしの場合よりも、人間の精度が高くなりました。一方で、スタンス検出タスクでは、AI支援の有無による統計的に有意な差は確認されませんでした。
図5: LLMの正誤別におけるAI支援の有無による個々のアノテーターの精度:緑の三角マーカーは平均精度を示しています。
さらに、LLMの支援が、LLMの正解・不正解のインスタンスに対して異なる影響を与えるかどうかを分析しました。その結果、LLMが正しい場合、LLMの支援が多いほど参加者の精度も向上することが分かりました。一方で、LLMが誤っている場合、誤ったLLMラベルを提供すると人間の精度が低下する傾向が見られました。
また、LLMの説明とラベルの両方を提示した場合と、ラベルのみを提示した場合の間には、有意な差は確認されませんでした。
研究の詳細や追加の人間の認識に関する分析については、CHI 2024の論文をご参照ください。
まとめ
本研究では、LLMのラベルと自己説明を活用した自動検証と再アノテーションによる、人間とLLMの協働アノテーションフレームワークの設計について議論しました。
検証モデルの実験結果から、LLMが生成したアノテーションの自動検証には、ロジット(logits)のみに依存するのではなく、自己説明などの追加情報を活用することが有効であることが示されました。また、クラウドソーシングによる被験者実験の結果、LLMの説明の品質を定量化し、向上させることの重要性、および人間による再アノテーションにおいて説明が有益となるケースを慎重に選択する必要があることが明らかになりました。
本研究を踏まえ、機械学習の実務者向けにMEGAnnoという人間とLLMの協働アノテーションツールを開発しました。ぜひお試しください!
執筆者:Hannah Kim、Megagon Labs
(翻訳:Megagon Labs 東京オフィス)