情報抽出(IE)は、エンティティマッチング、ナレッジベースの構築、テキスト要約などのテキスト分析タスクにおいて重要な最初のステップとなることが多いです。
通常、情報抽出のようなデータサイエンスワークフローは、いくつかのフェーズの連続として特徴づけられます(図1参照)。これらのフェーズでは、多くの場合、人間の関与が重要な役割を果たします。しかし、情報抽出ループに関与する人々の体験を改善するには、これらのワークフローを徹底的に調査し、各フェーズ内の細かなタスクを詳しく検討する必要があります。
図1: 一般的な情報抽出ワークフローのフェーズ
本記事では、データ準備からモデルデプロイメントまで、情報抽出のすべてのフェーズにわたるタスクとアクションを特定することを目的としたインタビュースタディからの調査結果を要約します。私たちは、情報抽出に関連する多様なタスクを含む10の内部プロジェクトを調査しました。これらのタスクには、エンティティ抽出、ナレッジベースの構築、および自然言語生成が含まれていました。私たちの究極の目標は、課題を検討し、既存ツールの体験を改善するためのフィードバックを得ることです。より詳細な調査結果は、ACMの計算におけるヒューマンファクターに関する主要な会議CHI’22で発表された論文をご覧ください。
既存の実践へのより深い洞察
では、実務者のIE(情報抽出)ワークフローについて、私たちは何を学んだのでしょうか?少し意外だったのは、これらのフェーズのそれぞれで、ユーザーが繰り返し以下の5つのタスクを実行していたことです:表示(view)、評価(assess)、仮説化(hypothesize)、実行(pursue)、検証(verify)。データ準備フェーズにおいて、このタスクモデルがどのように適用されるかを例で見てみましょう。
レビューからアスペクト(要素)と意見を抽出するシナリオを考えてみます(アニメーション付きの図2を参照)。まず、ユーザーはスプレッドシートでレビューのサンプルを表示します(view)。次に、データ品質の問題を理解するために、レビューの文をクラスター化し、パターンが現れるかどうかを確認します(assess)。たとえば、一部のレビューは異なる言語で書かれていたり、スペルミスやHTMLタグを含んでいる場合があります。この観察に基づき、ユーザーはレビューをクリーンアップするための仮説を立て、HTMLタグの削除や非英語のテキストの除去といったルールを定義します(hypothesize)。その後、クリーニングスクリプトを実行し(pursue)、最後にデータ品質を評価して仮説が正しかったかどうかを確認します(verify)。
図2: データ準備フェーズで実行されるユーザータスク
ワークフローに関係なく、このタスクモデルがすべてのフェーズで現れることが確認されました!次に、このタスクモデルをさらに詳しく分析してみましょう。
IE(情報抽出)の多重ループ
興味深いことに、さまざまなフェーズにわたるユーザーのタスクとアクションを分析したところ、このタスクモデルが反復的であることが分かりました(図3参照)。ユーザーはしばしば何度も繰り返し、表示(view)、評価(assess)、仮説化(hypothesize)、実行(pursue)、検証(verify)のサイクルを行き来します。
たとえば、レビューからアスペクト(要素)と意見を抽出する例に戻ると、モデル構築フェーズでは、まずデータを探索して抽出ルールを策定します(仮説化)。その後、検証タスクを通じて仮説を確認します。もし抽出パフォーマンスが悪ければ、ユーザーはさらにデータを探索して仮説を修正し、確認ステップを繰り返します。
図3: 探索と確認のループ
この探索と確認のプロセスは、ユーザーが結果に満足するまで繰り返されます。さらにフェーズ間での反復を考慮すると、情報抽出ワークフローは非常に循環的になります(図4参照)。ここでは、ユーザーがさまざまなタスク間だけでなく、異なるフェーズ間も継続的に行き来することが示されています。
図4: 情報抽出(IE)の多重ループ
タスクモデルを正式に分析するために、私たちはグラウンデッド・セオリー[1]を使用しました。この体系的な方法論は、データの収集と分析を通じて仮説や理論を構築するものです。この分析に基づき、私たちは17のユニークなユーザーアクション(例: データサンプリング、概要の取得、必要に応じた詳細取得、ビューの比較、観察結果の記録)を特定しました。さらに、既存のIEツールでユーザーが実行する低レベルの操作を、これらのユーザーアクションに分類しました。
たとえば、クラスターリングや特徴分布の計算といった操作は、ユーザーアクション「概要の取得」に対応しており、通常はデータ準備やモデル評価フェーズで使用されます。タスク、ユーザーアクション、操作の分類に関する詳細については、論文を参照してください。
次に、探索、確認、および反復に関連するタスクモデル内でのさまざまな操作を実行する際の課題について議論します。
IEループにおける人間の課題
回顧的インタビューの中で、私たちは参加者に、ワークフロー内でのさまざまな課題点について尋ねました。その回答を以下の3つの課題カテゴリに分類しました:
a) 探索または情報探索(exploration or foraging)
b) 確認または意義づけ(confirmation or sensemaking)
c) 反復(iteration)
次に、これらの課題に対応するいくつかの具体的な課題点に焦点を当てて説明します。
情報探索(Foraging)の課題
認知的スケーラビリティの問題
テキストコーパスを探索する際の主な課題はスケールです。膨大なデータセットにより、ユーザーがデータを把握するのが難しくなります。ユーザー自身がデータを地道にサンプリングしたり、ドキュメントをスクロールして理解する必要があるという負担があります。
「…データの一部を探索するのが難しかった。」
セマンティック検索機能の欠如
テキストに基づく情報抽出には、高度な検索機能が必要ですが、既存のシステムにはそれが欠けています。たとえば、品詞タグや単語の同義語によるドキュメント検索をサポートするデフォルトの機能がありません。
「…例えば、給与に関するすべての項目を福利厚生にラベル付けしたい場合があります。給与には多くの同義語があります。特に、その同義語を自分で列挙しなければなりません…なぜならGoogle Sheetsにはその機能がないからです…。」
文脈の欠如
データを探索する際、ユーザーは文脈の欠如によって洞察を得られないことがよくあります。たとえば、先に紹介したレビューのデータ準備の例では、ユーザーはレビュー文をクラスター化してデータ品質の問題を特定しようとしました。しかし、各クラスターの例文を表示するインタラクティブな機能がありませんでした。これがあれば、各クラスター内の一般的なパターンを理解するのに役立ったでしょう。
「…結果を表示して、それをインタラクティブに探索できるようにしてください。それだけでも非常に有用な機能だと思います。」
意義づけ(Sensemaking)の課題
定性的検証の難しさ
仮説の検証中、定性的検証は困難になることがあります。既存のツールでは、抽出結果の元となったソースドキュメントを自動的に取得する機能がないためです。たとえば、レビュー文から抽出されたアスペクトや意見を示す例が挙げられます。
「…実際には非常に面倒なことですが、抽出結果を取得して、それがどこから来たのかを確認する必要があります。」
比較機能の欠如
モデルや抽出ルールを評価する際、結果を比較するための組み込みサポートがありません。たとえば、平均適合率(mean average precision, MAP)はモデルの性能を測定するための一般的な指標ですが、現在は異なる候補モデルが出力する抽出数k をユーザー自身が変動させ、その後にMAPを比較する必要があります。
「…例えば10個の異なるモデルがあるとします。そして、インタラクティブな方法で分析を行いたいと思うのは間違いありません。その目的のために最適なモデルを選択できるように、パラメータとその値を選択して、指標がどのように変化するかをプロットで見ることができると良いです。」
反復(Iteration)の課題
専用のプロヴナンス管理の欠如
既存のツールには、プロヴナンスやメタデータ管理が組み込み機能として用意されていません。そのため、検証、文書化、反復間の比較のためのソリューションを開発する責任がユーザーに委ねられています。IEプロジェクトの定量的メタデータ(例: 評価結果、モデルパラメータ)や定性的メタデータ(例: ユーザーコメント、文書化)を追跡する現在の手法は手間がかかり、エラーが発生しやすいです。
全体的なシステムの欠如
もう1つの課題は、5つのタスクすべてをサポートするエンドツーエンドのソリューションが欠如していることです。たとえば、データの表示(view)やパターンのラベリング(hypothesize)にはスプレッドシートが使用され、すべてのタスクに計算ノートブックが使用される場合があります。フェーズとタスクの両方が反復的であるため、ユーザーはIEワークフローを完了するために複数のツールを行き来することを余儀なくされることが多いです。ツール間を切り替えることは、ユーザーにとって煩雑な作業になります。
では、これらの課題にどのように対処すればよいのでしょうか?
次回の議論では、認知工学の原則に基づいて、人間を介したIEツールを開発するための設計ガイドラインをいくつか概説します。
認知工学の原則が課題解決の鍵!
さまざまな分野で人間を介したインターフェースを評価するために広く使用されている認知工学の原則[2]は、認知科学の実証的な知見を活用してインターフェース設計を指針とします。私たちの研究では、次の原則に焦点を当てています:
- 不要な作業を自動化する(CP1)
- 情報の不確実性を減らす(CP2)
- データを統合して高レベルの抽象化を提供する(CP3)
- 解釈を容易にするために既知のメタファーを使用する(CP4)
- 論理的な方法で情報を表示する(CP6)
- 情報探索時に視覚的な補助を提供する(CP7)
- 現在の焦点の文脈を維持する(CP8)
- 複数の詳細レベルで情報を提示する(CP9)
これまでに議論した課題の多くは、既存のツールがこれらの原則に従っていないことに起因していると私たちは考えています。
表1. 認知工学の原則に触発された情報抽出ツールの設計ガイドライン
これらの課題に対処するために、認知工学の原則に触発された情報抽出ツールの設計ガイドラインをいくつか特定しました。表1では、これらのガイドラインをまとめ、それらが各認知工学の原則とどのように関連しているかを示しています。これらのガイドラインは、次の2つのテーマに分類できます:機能レベルのガイドライン(D1-D6) と システムレベルのガイドライン(D7, D8)。
機能レベルのガイドラインの多くは、セマンティック検索の実行、要約の自動生成、インタラクティブなフィードバックの提供といった知的エージェントを活用して、ユーザーの不要な作業を自動化することに関連しています。一方、システムレベルのガイドラインは、使いやすさを確保するためのエンドツーエンドソリューションの開発(D7) と、再現性を保証するためのプロヴナンスおよびメタデータ管理メカニズムの統合(D8) を推奨しています。
影響と今後の展望
私たちのインタビューと後続の分析を通じて、タスクベースのモデルを使用した情報抽出ワークフローの詳細な特徴づけを行い、人間を介したプロセスで直面する関連課題を特定し、これらの課題に対処するための設計ガイドラインを提案しました。ここでは、タスクモデルと提案した設計上の考慮事項がIE(情報抽出)ツールの開発に与える影響の一部を議論します。
再現性:
私たちは、再現性がIEツールにおける第一級の要件であるべきだと考えており、MLOpsツールと実践の活用を推奨します。ただし、MLOpsの実践は、機械学習モデルを本番環境に信頼性高く効率的にデプロイし維持するために設計されています。これを研究環境に統合する方法を探ることは興味深く、挑戦的な問題です。研究環境は本番環境よりも実験的かつ反復的であることが多いためです。
人間の主体性と自動化:
人間の主体性と自動化された知的エージェントとの間の緊張関係は、提案した設計ガイドラインを実際のシステムに組み込む際に考慮する必要があると考えています。IEシステムに設計上の考慮事項を組み込む際には、自動推論と人間の主体性を調和させるアプローチを深く調査する必要があります。このため、人間と自動エージェントの役割を探る混合主導型システム(mixed-initiative systems)は、人間を介したIEツールの設計に有益な情報を提供する可能性があります。
AIシステムの人間中心設計への関心が高まる中、提案した設計原則を深くサポートするシステムが、人間を介したデータサイエンスツールの基盤となる未来を楽しみにしています。
より詳細な調査結果については、ACMの計算におけるヒューマンファクターに関する主要会議CHI ’22で発表された論文をご覧ください。
参考文献
[1] Patricia Yancey Martin & Barry A. Turner, 「グラウンデッド・セオリーと組織研究」The Journal of Applied Behavioral Science, vol. 22, no. 2 (1986), 141.
[2] Jill Gerhardt-Powals. 1996. 「人間とコンピュータのパフォーマンスを向上させるための認知工学の原則」International Journal of Human-Computer Interaction 8, 2 (1996), 189–211.