知識グラフ構築・学習プラットフォーム: エンジニアリングの側面から

 

ナレッジグラフは、特に機械学習モデルと、その複雑なドメイン固有のタスクにおける表現力・推論力・および説明力を改善するために、人間がキュレーションした構造化知識の重要な情報源です。Megagon Labsでは、ナレッジグラフ(KG)の変革力を認識しています。ナレッジグラフは単なる情報の保管庫ではなく、その表現力と推論力を進化させるダイナミックな構造体です。人事(HR)領域において、私たちは、人間によってキュレートされた知恵とデータ駆動型の洞察を相乗させる、エンティティレベルおよびインスタンスレベルの知識グラフを継続的に成長させるキュレーションを行っています。これらのKGは、研究プロジェクトと実世界のHRタスク(マッチング、電話選考予測、マッチング理由の説明など)の両方の知識源として機能します。

従来、これらのKGを改良し、下流のタスクで活用する反復プロセスは、非常に時間がかかり、手作業によるキュレーションや、KGのコンテンツやサイズが機械学習モデルのパフォーマンスに与える下流への影響を評価する難しさによって、しばしば行き詰まっていました。我々は、KGの構築と学習のライフサイクルを加速させるだけでなく、各反復が情報に基づいた意思決定をサポートするために必要なインテリジェンスを注入することを確実なものにするKGプラットフォームを設計しました。

このブログポストでは、私たちのKG構築・学習プラットフォームを解き明かし、機械学習を豊かにする役割を明らかにします。私たちの特徴的なパイプラインを探求し、データの出所とGNNトレーニングの粒度を掘り下げながら、私たちのシステムがどのようにKGを現実のユースケースの実用的な実世界のタスクにシームレスに統合することを促進するかを紹介します。

KGプラットフォーム

図1に示すように、我々のKG構築・学習プラットフォームの中心にあるのは、知識のライフサイクルです。この図は、Megagon KnowledgeHubからの派生KGの生成、標準ベンチマークとしての1つのゴールデン・データセット、モデル学習のための複数の派生データセット、そしてKGモデルが下流のタスクに果たす役割を示しています。

                              

    

                                           図1. KG構築・学習プラットフォームの構成要素

コンポーネントの詳細を説明しましょう。我々のプロセスは、構造化および非構造化データソースの両方を利用し、共有された階層スキーマの下で複数のエンティティレベルおよびインスタンスレベルのKGを構築することから始まります。我々のシステム内では、様々なソースからのデータは、データの前処理とKG構築パイプラインを通して知識への変成を受けます。例えば、図2に示すように、履歴書は単なるテキストという元の形を超え、KGのノードとなり、抽出された属性で強化され、より大きな知識グラフに統合されます。階層化されたKGを利用することで、エンティティや関係が適切なセマンティクス・レベルで集約され、モデル開発のためのより良い、より強力なシグナルが開発されます。

   

                                                    図2. KGにおける履歴書のサブグラフ例

下流のユニークなタスクごとに、私たちのパイプラインはグラフ変換を行い、Megagon KnowledgeHubから知識を抽出し、洗練させます。これには、知識の変換、キュレーション、統合のプロセスが含まれ、最終的には、与えられたタスクの機械学習アプリケーションのために特別に調整された派生KGが作成されます。例えば、ある設計オプションでは、元の2ホップの関係「履歴書→経験→スキル」は、1ホップの関係「履歴書→スキル」に圧縮され、履歴書のスキルに関する他の関係ソースと統合されます。このような変換操作の標準化と自動化により、開発者はより多くのアイデアを試すことができます。ゴールデンデータセットと派生データセットの複数のバージョンを生成するこの機能により、設計オプションの徹底的な比較分析が可能になり、確かなデータと強固な評価指標に裏打ちされた情報に基づく意思決定が促進されます。KG学習パイプラインはこれらのデータセットに対して実行され、結果をもたらします。

実際には、産業界でKGを直接使用しても、そのスケールの大きさや、データのアンバランスで疎な性質のために、質の高い結果が得られないことがよくあります。我々のシステムが他のKG構築およびトレーニングフレームワークと異なる重要な点は、グラフ変換です。生データをモデルに使用するデータに変換するデータレイクにおける様々なデータ操作と同様に、KGに格納された知識は通常、フィルタリング、集約、マージ、変換される必要があり、その後、グラフモデルがそれを受け取り、下流のタスクに適用することができます。グラフモデルは、特にタスクに対して「強調された」グラフを持つ必要があります。

グラフ変換におけるこのような操作を標準化し、高速な反復を可能にするために、我々はKG構築・学習プラットフォームにおける自動グラフ変換パイプラインを設計しました。このパイプラインは宣言的パラダイムで動作します。ユーザによって定義されたクエリファイルを用意するだけで、フレームワークは下流のタスクのために新しいKGを自動的に取得し、変換し、構築します。クエリファイルの宣言型には、”何を”(汎用スキーマにおける高レベルのトリプル定義)、”どのように”(Neo4jなどのデータベースにおける実際のクエリ)したいかという情報が含まれています。このアプローチは、KGの作成と反復のプロセスを大幅にスピードアップします。

データの実証性

データが未加工のソースからKGへ、そしてトレーニングデータセットへ、最終的にはモデルへと流れていく中で、データの出所を追跡することは非常に重要になります。ジョブーレジュメ マッチング モデルの特定のコンフィギュレーションがパフォーマンスを向上させた場合、データの出所を追跡することで、根本的な要因を突き止めることができます。データの出所の詳細をさらに掘り下げてみましょう。

まず、KG構築の中で、HRドメイン内のあらゆるエンティティやリレーションシップを構造化された階層に整理する汎用的な階層スキーマを構築しました。例えば、”Python “のような特定のノードから、KGの最も抽象的なノードまで遡ることができます。最も細かいレベルでは、KG内のデータソース固有のリレーションシップがリレーショナル構造の最も細かい部分を表しています。どのような2つの関係でも、共通の祖先を見つけ、その時点で知識をマージすることができます。例えば、”resumeHasExtractedSkillByModelA “と “resumeHasExtractedSkillByModelB “という2つのデータソース固有の関係には、2つのモデルによる履歴書からのスキル抽出結果に関する知識が格納されています。我々のプラットフォームは、これらを自動的に “resumeHasSkill “の関係に統合します。

第二に、KG構築・学習フレームワークの中で、各フレームワークコンポーネントの設定ファイルベースのバージョン管理システムを確立し、先行コンポーネントの識別子、生データソース、KGソース、利用される生テーブル、その他の関連メタデータを文書化しています。

KG学習

我々のKG構築・学習フレームワークの包括的なアーキテクチャの中で、KG学習は重要な仲介役として機能し、知識を直接的な成果に変換します。KG内に存在する、豊かで、相互接続された、深い意味的関係から学習するために、様々なカスタマイズされたGNN/LLMベースの機械学習アプローチを、様々な下流タスクのために設計することができます。我々はあるタスクを用いて、我々のカスタマイズしたGNNがどのようにニュアンスに富んだドメイン理解を示し、我々のエンド・ツー・エンド・ソリューションの適応性を高めるかを示します。
実際の応用例をひとつ見てみましょう:電話選考予測、つまり履歴書と求人の条件に基づいて、候補者が電話選考の面接を受けるべきかどうかを予測することです。
我々のアプローチは、エンコーダ・デコーダの知識グラフ学習のための事前学習段階と、それに続く電話選考分類に合わせた微調整段階からなる、特別な2段階グラフベースのフレームワークを利用します。知識グラフの力を利用することで、このモデルはLLMベースのアプローチと同等の結果、場合によってはより優れた結果を達成します。さらに優れているのは、KGが必要とするリソースと学習時間がほんのわずかであることです。このモデルの迅速な推論能力は、本番環境に非常に適しています。我々の設計を繰り返し改良した結果、いくつかの重要な見解が得られました。

  1. テキストデータがなくても、構造的知識だけで重要な意味情報を捉えることができます。
  2. KGモデルは、簡潔なモデルサイズと高速な推論時間を誇り、結果の質を犠牲にすることなく、生産環境においてより実用的な選択となります。
  3. タクソノミのような概念的なつながりを含めることで、明らかな利点が得られ、データ駆動型ナレッジグラフの性能が向上します。

フィーチャーストア埋め込み

知識グラフ埋め込みは、検索、マッチング、推薦システムなど、様々な機械学習主導の実世界アプリケーションに強力な基盤を提供します。グラフベースのMLモデルの直接的な展開にとどまらず、これらのアプリケーションは、KG学習から得られる豊かでドメイン固有の表現から大きな恩恵を受けます。これらの埋め込みは、複雑なセマンティクスと知識をカプセル化し、他のモデルを拡張するための機能として有用です。

これらの表現を効果的に活用し、産業用のユースケースの動的な要求を満たすために、私たちは高次元のフィーチャーストアを利用しています。これらのフィーチャーストアは、ベクトル一括取得、類似性検索、近似最近傍(ANN)関数などの操作をサポートするように設計されています。これにより、KG由来の洞察をより広範なシステムにシームレスに統合することが可能になり、KGが捉えた理解が様々な下流アプリケーションの深さと精度に直接貢献できることを保証します。

結論と今後の課題

この記事では、我々のKG構築・訓練フレームワークの大まかな外観を提供しました。このフレームワークは、機械学習タスクの構築から利用まで、KGのライフサイクル全般を扱うことができ、コンセプトの堅実な探索と検証を容易にするだけでなく、タスクのパフォーマンスを向上させます。この反復的アプローチは、より多くの情報に基づいた意思決定プロセスにつながり、KGの変革力を際立たせています。

私たちは将来に向けて、GNNとLLMを私たちのフレームワークの中にさらに統合し、人間のフィードバックと洞察を取り入れたフィードバック・ループを導入することで、知識グラフを充実させ、学習手法を強化することを目指しています。

執筆者: Chen ShenEser Kandogan、Megagon Labs。

LinkedInTwitter でフォローして、最新情報を入手してください。

Share:

More Blog Posts: