Blog

知識グラフ構築・学習プラットフォーム：エンジニアリングの側面から

ナレッジグラフは、特に機械学習モデルと、その複雑なドメイン固有のタスクにおける表現力・推論力・および説明力を改善するために、人間がキュレーションした構造化知識の重要な情報源です。Megagon Labsでは、ナレッジグラフ（KG）の変革力を認識しています。ナレッジグラフは単なる情報の保管庫ではなく、その表現力と推論力を進化させるダイナミックな構造体です。人事（HR）領域において、私たちは、人間によってキュレートされた知恵とデータ駆動型の洞察を相乗させる、エンティティレベルおよびインスタンスレベルの知識グラフを継続的に成長させるキュレーションを行っています。これらのKGは、研究プロジェクトと実世界のHRタスク（マッチング、電話選考予測、マッチング理由の説明など）の両方の知識源として機能します。従来、これらのKGを改良し、下流のタスクで活用する反復プロセスは、非常に時間がかかり、手作業によるキュレーションや、KGのコンテンツやサイズが機械学習モデルのパフォーマンスに与える下流への影響を評価する難しさによって、しばしば行き詰まっていました。我々は、KGの構築と学習のライフサイクルを加速させるだけでなく、各反復が情報に基づいた意思決定をサポートするために必要なインテリジェンスを注入することを確実なものにするKGプラットフォームを設計しました。このブログポストでは、私たちのKG構築・学習プラットフォームを解き明かし、機械学習を豊かにする役割を明らかにします。私たちの特徴的なパイプラインを探求し、データの出所とGNNトレーニングの粒度を掘り下げながら、私たちのシステムがどのようにKGを現実のユースケースの実用的な実世界のタスクにシームレスに統合することを促進するかを紹介します。 KGプラットフォーム図1に示すように、我々のKG構築・学習プラットフォームの中心にあるのは、知識のライフサイクルです。この図は、Megagon KnowledgeHubからの派生KGの生成、標準ベンチマークとしての1つのゴールデン・データセット、モデル学習のための複数の派生データセット、そしてKGモデルが下流のタスクに果たす役割を示しています。図1. KG構築・学習プラットフォームの構成要素コンポーネントの詳細を説明しましょう。我々のプロセスは、構造化および非構造化データソースの両方を利用し、共有された階層スキーマの下で複数のエンティティレベルおよびインスタンスレベルのKGを構築することから始まります。我々のシステム内では、様々なソースからのデータは、データの前処理とKG構築パイプラインを通して知識への変成を受けます。例えば、図2に示すように、履歴書は単なるテキストという元の形を超え、KGのノードとなり、抽出された属性で強化され、より大きな知識グラフに統合されます。階層化されたKGを利用することで、エンティティや関係が適切なセマンティクス・レベルで集約され、モデル開発のためのより良い、より強力なシグナルが開発されます。

2024年3月4日

テンプレート埋め込みによるゼロショットトリプレット抽出

非構造化テキストからエンティティや関係などの構造化された知識を抽出することは、自然言語処理における基本的な課題です。トリプレット抽出は、生のテキストから直接トリプレットを導き出すことが目的である情報抽出において特に困難なタスクです。たとえば、「Hayao Miyazaki was born in Tokyo」という文からトリプレット(Hayao Miyazaki, born_in, Tokyo)を抽出します。ほとんどのトリプレット抽出モデルには、抽出すべき対象関係を網羅した学習データが必要です。しかし、実際のアプリケーションでは、学習例がないテスト時に新しい未知の関係を抽出したいことがよくあります。これは、ゼロショットトリプレット抽出として知られています。未知の関係の処理は、新しいエンティティタイプや関係が時間の経過とともに絶えず出現する、知識ベースの構築のようなタスクにとって極めて重要です。しかし、未知の関係に対する信頼性の高い学習データを作成することは、非常に非常に難しいことで知られています。通常、共起に基づいてエンティティを関連付けるためにヒューリスティックに依存する遠隔監視などのノイズの多い方法を介して合成例を作成する必要があります。しかしこの方法では、誤った例が学習データに混入する可能性があります。T5

2023年12月27日

文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開

文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開 LREC 2022で発表した論文 Self-Contained Utterance Description Corpus for Japanese Dialog の実装 Pilota (パイロッタ)

2023年8月31日

Ruler：Data Programming by Demonstration（DPBD）でラベリング関数を作成する

テキスト分類は私たちが日々利用している多くの技術の基盤となっています。電子メールのルーティング、ニュースの分類、ソーシャルメディアの意図の識別はこうした技術のほんの一部の例にすぎません。テキスト分類に不可欠な要素であるラベリングは非常に手間と時間のかかるプロセスです。そこで、Megagon Labsはこのラベリング処理を容易にするために Ruler というインタラクティブシステムを開発しました。RulerはDPBD (Data Programming by Demonstration) と呼ばれる新しいフレームワークを用いてラベリング関数をシームレスに合成することができます。 Rulerは技術的な参入障壁を下げることで、各領域の専門家がデータプログラミングを活用できるようにします。Rulerを使えばテキスト分類に使う大量の学習データを素早く簡単に生成できるようになり、しかもプログラミングは不要です。

2021年10月1日

Essentia: Word-Alignment Graphsでドメイン固有のパラフレーズをマイニングする

パラフレーズは幅広い自然言語処理 (NLP) アプリケーションにとって重要なリソースです。そのため、様々なパラフレーズ・マイニング技術が開発されてきました。これらのマイニング技術は一般的なパラフレーズを発見することには成功していますが、多くの場合、ドメイン固有の言い換えを特定できません。この問題を解決するために、Megagon Labsは Essentia を開発しました。この優れたシステムは、Word-Alignment Graphsを用いることで入力セットに一握りの文章しか含まれていなくとも、そのセットからドメイン固有の言い換えを抽出します。現在のパラフレーズ・マイニング技術の問題点パラフレーズはテキストからテキストへの生成、機械翻訳、テキストの含意認識など、多くのNLPタスクにおいて重要な役割を果たしています。最初の2つの分野においては、有機的で多様な出力テキストを作成するために不可欠な存在です。想像してしてみてください。あるチャットボットの挨拶が

2021年9月13日

Megagon Team Profile : 史宏杰リサーチエンジニア

Megagon Labs Tokyoのメンバーズ・ボイスへようこそ！連載4 回目となる今回は、東京オフィスで知的対話システムを担当するリサーチエンジニアの史宏杰さんがMegagon Labsに至るまでのバックグラウンド、興味・関心や現在取り組まれているプロジェクト、そしてリサーチエンジニアとして挑戦し続ける秘訣に迫ります。これまでの経歴と、Megagon Labsにジョインした理由を教えてください

2021年9月7日