AI(人工知能)や大規模言語モデル(LLM)の最近の進展にもかかわらず、特定のドメインにおける現実世界のアプリケーションでは、依然として多くの未解決の問題や課題が存在しています。たとえば、人材(HR)分野では、アプリケーションが公平性、事実性、制御可能性、一貫性、解釈可能性、推論能力を提供する必要がありますが、現在の最先端技術にはこれらの能力が欠けていることが多いです。
私たちは、さまざまなソース(構造化データおよび非構造化データ)から得られるナレッジを活用することで、現在のLLMの限界の一部を克服できると考えています。Megagon Labsでは、大規模言語モデル(LLM)だけでなく、構造化データ(ナレッジベース [KB]、ナレッジグラフ [KG]、データベース [DB] など)や非構造化データ(テキスト)を活用する共生モデルおよびシステム(図1)を開発しています。これらは、連続的かつ(半)自動化された機械学習パラダイムの中で動作します。本記事では、Megagon KnowledgeHubと、私たちが研究および開発の中でこのナレッジハブをどのように活用しているかについて説明します。
図1. KnowledgeHubは、LLM、テキスト情報、ナレッジベースなどの補完的な複数のソースを統合しており、共生的なナレッジ表現とモデルを可能にします。KnowledgeHubを活用するアプリケーションは、公平性、事実性、制御可能性、一貫性、解釈可能性、および推論能力の継続的な向上の恩恵を受けます。
Megagon KnowledgeHub
Megagon KnowledgeHubは、人材(HR)分野におけるさまざまな種類のナレッジや情報を含むリポジトリです。大規模言語モデル、データベース、タクソノミー、ナレッジベース、ナレッジグラフに加えて、KnowledgeHubは履歴書、求人内容、求められるスキルや責任、企業プロフィール、スキルセットなど、さまざまな種類のテキストデータを活用します(図2参照)。KnowledgeHubは、プロパティグラフのようなシンボリック表現、埋め込みやモデルといった高密度数値表現、さらにそれらのハイブリッドな組み合わせを含む、さまざまな表現形式でナレッジを学習し保存することができます。
図2. Megagon KnowledgeHubは、さまざまな情報ソースを活用して、候補者と求人のマッチングなど、さまざまなタスク向けのモデルを構築します。
私たちは、KnowledgeHubにおけるハイブリッドかつ共生的な学習アプローチが、文脈を効果的に捉える成果物を提供し、制御可能で一貫性があり、解釈可能なアウトプットを生成し、公平な意思決定を促進できると信じています。このアプローチはシンボリックおよび非シンボリックな信号を組み合わせているため、LLMのみに基づく現在の手法に存在する限界を克服できます。たとえば、KnowledgeHubは高密度ベクトル表現(埋め込み)や強化された大規模言語モデル、ナレッジグラフを提供し、求人と履歴書のマッチング、履歴書や求人情報からのスキル抽出、キャリアパスの推薦、タクソノミーやオントロジーの整理など、多くのHRタスクをより精度高く、制御可能で説明可能な結果をもって解決できます。
KnowledgeHubは、Recruit Holdingsおよびその子会社にとって有用な、継続的に進化する大規模な共有ナレッジを可能にします。各プロジェクトは、モデル、説明、および埋め込みをハブに公開することで貢献し、それらは他のプロジェクトで活用され、新しいナレッジを探求し、新たなモデリングのアイデアを試すことができます。このハブは共有ナレッジリソースであるため、新しいデータやモデルとともに成長し進化するにつれて、その改善は即座に本番環境で稼働するアプリケーションにも反映されます。
例えば、特定の求人情報に最適な履歴書を見つけることに特化した新しいモデルM1を考えてみましょう。このモデル(M1)は、最初はKnowledgeHubの「利用者」として恩恵を受けることができます。たとえば、M1は、ハブ内の既存の埋め込み(またはナレッジ強化モデル)を利用して、マッチングタスクをより効果的に解決できます。しかし、M1はマッチングタスクを解決することで得たナレッジをハブに公開することで、「提供者」としても貢献できます。たとえば、求人情報や履歴書から抽出された「スキル」や「求人要件」(およびその他の概念)に関する新しいナレッジを追加・拡張してハブを豊かにすることができます。マッチングタスクで得られた「スキル/求人要件」のペアは、「互換性のあるスキルと要件」といった関係を注入するために使用されることがあります。その結果、M1はKnowledgeHubの「利用者」であると同時に「提供者」となります。このプロセスにおいて、モデル(およびその他のコンポーネント)がハブに貢献し、ハブを利用すればするほど、ハブのコンテンツや学習能力はさらに向上します。
KnowledgeHubのアーキテクチャは、階層的に考察できます(図3)。データベース層は、すべての異なるナレッジ要素を物理的に保存する役割を担っています。私たちは、NoSQL(グラフ、キー値、ドキュメント)データベースとリレーショナルデータベースを組み合わせて使用しています。このキーとなるアイデアは、異なる表現形式やさまざまな種類のナレッジを統合的に保存し、エンティティのシンボリック表現と数値表現をリンクできるようにすることです。さらに、シンボリックなクエリと数値表現の近似クエリを組み合わせることができます。クエリ層は、ハブ内のコンテンツを操作および管理する役割を担っています。これには、ナレッジのクエリ、取り込み、削除、そしてさまざまなビューやスナップショットの作成が含まれます。
機能層は、さまざまなダウンストリームタスクやアプリケーションで役立つデータを生成する役割を担っています。この層の機能には、特定のタスクやドメイン向け、あるいは一般的な利用向けに生成されるサブグラフ、埋め込み、モデルチェックポイントなどが含まれます。生成されたすべての機能は、ダウンストリームアプリケーションで利用可能となります。
推論層は、ハブ内に存在するナレッジに基づいて推論を行うためのさまざまな推論モデルやアプローチへのアクセスを提供します。この新たに推論されたナレッジは、特定のダウンストリームタスクで使用することも、ナレッジハブの拡張や整理を支援するために使用することも可能です。
KnowledgeHubに保存されるすべてのナレッジには、関連するプロヴナンス(出所情報)と信頼スコアが付随しています。プロヴナンス層は、ナレッジハブ内のコンテンツの出所を追跡する役割を担い、バージョン管理を可能にし、各ナレッジの出所を説明できるようにします。
タクソノミー/ナレッジベース(KB)層は、「タクソノミー・アズ・ア・サービス」を提供し、関連する最新のタクソノミー情報をアプリケーションが取得できるようにします。この層は、特定のドメインに適したタクソノミーを提供するために利用されます。最後に、抽出層は、ナレッジを継続的かつ(半)自動的に取り込むためのモデルやツールを提供する役割を担っています。
図3. KnowledgeHubの層構造。ナレッジを7つの層として視覚化できます。
本記事では、Megagon Labs KnowledgeHubの概要を高いレベルで紹介しました。KnowledgeHubは、私たちの研究開発チームが研究コミュニティにおける成果の影響を継続的に向上させるための作業と成果の創出を可能にします。