Blog

Sudowoodo: データ統合アプリケーションのための対比的自己教師あり学習

機械学習は、エンティティマッチング、データクリーニング、テーブルアノテーションといったデータ統合タスクにおいて、ますます重要な役割を果たしています。最近では、事前学習済み言語モデル(LM)の研究進展がデータ統合タスクに広く採用され、最先端のパフォーマンスを達成しています。しかし、既存の学習ベースのソリューションには依然として2つの大きな課題があり、実際の運用での魅力が低下しています。
一方で、このような学習ベースのアプローチの成功は、大規模で高品質なアノテーション付きデータセットの作成というコストを伴いますが、それは常に簡単に入手できるわけではありません。他方で、実務者は各タスクごとに専用の機械学習ソリューションを構築する必要があり、モデルエンジニアリングの追加コストが発生します。さらに、このようなモデルの再利用性は限られていることが多いです。

Read More »

情報抽出ループにおける人間の支援: 実践、制限、および可能性の詳細研究

情報抽出(IE)は、エンティティマッチング、ナレッジベースの構築、テキスト要約などのテキスト分析タスクにおいて重要な最初のステップとなることが多いです。
通常、情報抽出のようなデータサイエンスワークフローは、いくつかのフェーズの連続として特徴づけられます(図1参照)。これらのフェーズでは、多くの場合、人間の関与が重要な役割を果たします。しかし、情報抽出ループに関与する人々の体験を改善するには、これらのワークフローを徹底的に調査し、各フェーズ内の細かなタスクを詳しく検討する必要があります。
本記事では、データ準備からモデルデプロイメントまで、情報抽出のすべてのフェーズにわたるタスクとアクションを特定することを目的としたインタビュースタディからの調査結果を要約します。

Read More »

CoCoSum: レビューから対比的および共通の意見を要約する

広く利用可能なオンラインの顧客レビューは、ホテル、レストラン、仕事など、さまざまな分野での意思決定を支援します。ユーザーは、最初の好みに基づいて(例:地域、価格帯、レストランの種類)候補のリストを作成した後、最終的な決定を下すためにレビューを慎重に読み込み、いくつかの選択肢を詳細に比較する必要があります。しかし、この方法は時間がかかり、情報が異なるレビューに散在しているため、候補間の違いと共通点を見つけるのが難しいという課題があります。

Read More »

Coopを用いた具体的なレビュー要約の生成

YelpやGlassdoorのようなオンラインレビュー・プラットフォームの急速な成長に伴い、人々は飲食から就職活動に至るまで、顧客レビューに基づいて意思決定を行うようになっています。ある調査によると、オンライン顧客の94%以上が意思決定の前にレビューを読むとされています。しかし、毎日膨大な量のレビューがこれらのプラットフォームに投稿されているため、求めている有益な意見を見つけるのは困難です。このような状況に対する解決策が、意見要約です。

Read More »

ユーザー生成テキストにおける低リソースのエンティティセット拡張:洞察と教訓

エンティティは、自然言語テキストを理解する上で欠かせない要素です。この目的のために、エンティティセット拡張(Entity Set Expansion, ESE)のタスクは、テキストコーパスと各関心概念(例:部屋の設備)に対応するエンティティのシードセット(例:「コーヒー」、「アイロン」)を基に、その概念に関連する包括的なエンティティのセット(例:「ミニバー」、「テレビユニット」)を取得することを目指します。このタスクに必要な大規模なトレーニングデータの取得には多大なコストがかかるため、既存の手法は、概念ごとにシードセットが10エンティティ未満といった低リソース環境に焦点を当てています。

Read More »

Megagon KnowledgeHub: HR分野のAIアプリケーションのギャップを埋める多用途なナレッジリポジトリ

AI(人工知能)や大規模言語モデル(LLM)の最近の進展にもかかわらず、特定のドメインにおける現実世界のアプリケーションでは、依然として多くの未解決の問題や課題が存在しています。たとえば、人材(HR)分野では、アプリケーションが公平性、事実性、制御可能性、一貫性、解釈可能性、推論能力を提供する必要がありますが、現在の最先端技術にはこれらの能力が欠けていることが多いです。
私たちは、さまざまなソース(構造化データおよび非構造化データ)から得られるナレッジを活用することで、現在のLLMの限界の一部を克服できると考えています。Megagon Labsでは、大規模言語モデル(LLM)だけでなく、構造化データ(ナレッジベース [KB]、ナレッジグラフ [KG]、データベース [DB] など)や非構造化データ(テキスト)を活用する共生モデルおよびシステム(図1)を開発しています。これらは、連続的かつ(半)自動化された機械学習パラダイムの中で動作します。本記事では、Megagon KnowledgeHubと、私たちが研究および開発の中でこのナレッジハブをどのように活用しているかについて説明します。

Read More »