Blog
文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開
文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開 LREC 2022で発表した論文 Self-Contained Utterance Description Corpus for Japanese Dialog の実装 Pilota (パイロッタ)
Ruler:Data Programming by Demonstration(DPBD)でラベリング関数を作成する
テキスト分類は私たちが日々利用している多くの技術の基盤となっています。電子メールのルーティング、ニュースの分類、ソーシャルメディアの意図の識別はこうした技術のほんの一部の例にすぎません。テキスト分類に不可欠な要素であるラベリングは非常に手間と時間のかかるプロセスです。そこで、Megagon Labsはこのラベリング処理を容易にするために Ruler というインタラクティブシステムを開発しました。RulerはDPBD (Data Programming by Demonstration) と呼ばれる新しいフレームワークを用いてラベリング関数をシームレスに合成することができます。 Rulerは技術的な参入障壁を下げることで、各領域の専門家がデータプログラミングを活用できるようにします。Rulerを使えばテキスト分類に使う大量の学習データを素早く簡単に生成できるようになり、しかもプログラミングは不要です。
Essentia: Word-Alignment Graphsでドメイン固有のパラフレーズをマイニングする
パラフレーズは幅広い自然言語処理 (NLP) アプリケーションにとって重要なリソースです。そのため、様々なパラフレーズ・マイニング技術が開発されてきました。これらのマイニング技術は一般的なパラフレーズを発見することには成功していますが、多くの場合、ドメイン固有の言い換えを特定できません。この問題を解決するために、Megagon Labsは Essentia を開発しました。この優れたシステムは、Word-Alignment Graphsを用いることで入力セットに一握りの文章しか含まれていなくとも、そのセットからドメイン固有の言い換えを抽出します。 現在のパラフレーズ・マイニング技術の問題点 パラフレーズはテキストからテキストへの生成、機械翻訳、テキストの含意認識など、多くのNLPタスクにおいて重要な役割を果たしています。最初の2つの分野においては、有機的で多様な出力テキストを作成するために不可欠な存在です。 想像してしてみてください。あるチャットボットの挨拶が
Megagon Team Profile : 史 宏杰リサーチエンジニア
Megagon Labs(東京オフィス)のメンバーズ・ボイスへようこそ! 連載4 回目となる今回は、東京オフィスで知的対話システムを担当するリサーチエンジニアの 史 宏杰 さんがMegagon Labsに至るまでのバックグラウンド、興味・関心や現在取り組まれているプロジェクト、そしてリサーチエンジニアとして挑戦し続ける秘訣に迫ります。 これまでの経歴と、Megagon Labsにジョインした理由を教えてください 香港科技大学卒業後に来日し、京都大学にて物理学と情報学の修士号を取得しました。私は子供の頃からウォークマンなどの日本製小型ガジェットが大好きで、自分もガジェットを作り出したい想いを持ち続けていました。その流れから自然と日系電気メーカーを就職先として選び、プロフェッショナルキャリアをスタートさせました。その日系メーカーでは対話システムに関する研究開発にしばらく従事し、対話システムの研究成果を事業化に結びつけました。その後、より大きな顧客接点を持つフィールドで対話システムの応用に挑戦したく、Megagon
KDD2020 ハイライト
KDD (Knowledge Discovery and Data Mining) は、世界で最も歴史があり、間違いなくトップレベルのデータマイニングの国際会議です。サンディエゴで開催される予定だった今年のカンファレンスは、新型コロナウイルス流行の影響で完全オンラインでの開催となりました。私はKDDで古くからの友人と会ったり、新しい友人を作ったりすることをもちろん楽しみにしていました。Zoomやメッセージングアプリは便利ですが、実際に会って交流することには敵いません。誰もがサンディエゴの輝く太陽とビーチを満喫することはできなかったわけですが、それでも組織化されたKDDにはこれまで以上の参加者が集いました。約 210本の研究論文が採択され、32件のワークショップ、40本以上のチュートリアルが行われました。その中には、私たちの素晴らしい同僚である Estevam Hruschka による「Data-Driven Never-Ending
じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例
より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。 オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるようになります。クチコミには様々な感想・意見・要望が含まれていますが、残念ながら大量のクチコミから欲しい情報を素早く得ることは未だに簡単ではありません。この問題を解決していくために知識の自動抽出・整理に役立つコーパスを作ることにしました。