じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例

より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。 オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるようになります。クチコミには様々な感想・意見・要望が含まれていますが、残念ながら大量のクチコミから欲しい情報を素早く得ることは未だに簡単ではありません。この問題を解決していくために知識の自動抽出・整理に役立つコーパスを作ることにしました。 論文を読む JRTEコーパスをダウンロードする JRTEコーパスの内容 JRTEコーパスには、宿の特徴有無、感情極性、含意関係の3つのラベルが用意されています。このコーパスはこのデータ用に人工的に作られた文ではなく、クチコミとして書かれた文を基にしているのが最大の特徴です。また、一般的にコーパスを利用するには手続きを含め時間を要するものですが、学術目的であれば即時ご利用いただける点においても学術発展観点では価値のある言語資源であると私たちは考えています。 宿の特徴の有無ラベルと感情極性ラベル 宿の特徴が含まれているかどうかを2値で (あり=1, なし=0)、 感情極性ラベルを3値で (ポジティブ=1, ネガティブ=-1, ニュートラル=0 )をラベル付与しています。 それぞれのラベルの分類タスクをRHR, Nと本稿ではよびます。 以下にデータの例を示します。 このデータを使って分類器を構築することで、「好評な宿の特徴に関する言及」を取り出せるようになります。 宿の特徴の有無ラベルと感情極性ラベルの例 なお、一般公開されている感情極性ラベル付き日本語コーパスには以下のようなものがあります。 筑波大学文単位評価極性タグ付きコーパス (外部リンク) 首都大学東京日本語評価極性タグ付きコーパス (外部リンク) 含意関係ラベル 仮説Hが成り立つとき前提Pも常に成り立つかどうか(含意するかどうか)というラベルを2値で (含意=1, 非含意=0) 付与しています。 このラベルの分類タスクをRTEと本稿ではよびます。 以下にデータの例を示します。 このデータを使って分類器を構築することで、「表現は異なるが同じことを述べている言及」を探せるようになります。 「部屋からの眺めが良い」からといってそれは海とは限らないのでラベルは0です。 一方、「部屋はオーシャンビュー」ならば「部屋から海が見える」は含意するのでラベルは1です。 含意関係ラベルの例 なお、一般公開されている含意関係ラベル付き日本語コーパスには以下のようなものがあります。 Textual Entailment 評価データ (外部リンク) 日本語SNLI(JSNLI)データセット (外部リンク) NTCIR-10 Recognizing Inference in […]