株式会社リクルートは、日本語自然言語処理における幅広い学術コミュニティの研究力向上に貢献するため、公的研究機関や大学の研究者や学生の皆さんの活動に有益な研究用データを公開しています。
Accommodation Search Dialog Corpusは宿泊施設を探しているカスタマーとエージェントのオンラインテキスト対話コーパスです。 事前に用意した架空の設定に基づいて述べられる曖昧な要望を、具体的な宿泊施設の検索条件に落とし込んでいく対話が210件収録されています。 対話には、SCUD(発話意図を簡潔に表現した自然文)・Dialog Act・要望スパンといったアノテーションが行われています。さらに、宿探しに関する10万以上の発話も付属しています。
本データセットは Japanese Realistic Textual Entailment Corpus ( LREC 2020 ) 、 知識の整理のための根拠付き自然文間含意関係コーパスの構築 ( NLP 2020 ) にて使用された文間含意関係コーパスです。宿泊施設クチコミデータから抽出した文の組に対して、アノテーション作業者が含意関係が成り立っているかを付与しています。一部のデータには、含意関係が成り立たない根拠や、ポジティブ/ネガティブ/ニュートラルといった感情極性ラベルや、宿の特徴が含まれているかどうかというラベルも付与されています。
含意関係コーパス: 約55,000件
宿の特徴判定文コーパス・感情極性コーパス: 約5,600件
本データセットは You May Like This Hotel Because … :Identifying Evidence for Explainable Recommendations ( AACL-IJCNLP 2020 ) 、旅行情報サイトのレビューを用いた要請要求に対する根拠付き推薦文の生成 ( NLP2020 ) にて使用された根拠説明生成用のデータセットです。宿泊施設クチコミデータをベースに、アノテーション作業者による根拠の特定と根拠文から推薦文への言い換えの評価データセットが含まれます。
データセット: 約37,300件
本学術研究用データセットにつきまして、以下のように何かお気づきの点がございましたら、下記お問い合わせ先へご連絡ください。
お問い合わせ先: nlp_data_support@r.recruit.co.jp