Datasets: 公開データセット

株式会社リクルートは、日本語自然言語処理における幅広い学術コミュニティの研究力向上に貢献するため、公的研究機関や大学の研究者や学生の皆さんの活動に有益な研究用データを公開しています。

Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
Accommodation Search Dialog Corpusは宿泊施設を探しているカスタマーとエージェントのオンラインテキスト対話コーパスです。 事前に用意した架空の設定に基づいて述べられる曖昧な要望を、具体的な宿泊施設の検索条件に落とし込んでいく対話が210件収録されています。 対話には、SCUD(発話意図を簡潔に表現した自然文)・Dialog Act・要望スパンといったアノテーションが行われています。さらに、宿探しに関する10万以上の発話も付属しています。
Japanese Realistic Textual Entailment Corpus (含意関係データセット)

本データセットは Japanese Realistic Textual Entailment Corpus ( LREC 2020 )  、  知識の整理のための根拠付き自然文間含意関係コーパスの構築  ( NLP 2020 )  にて使用された文間含意関係コーパスです。宿泊施設クチコミデータから抽出した文の組に対して、アノテーション作業者が含意関係が成り立っているかを付与しています。一部のデータには、含意関係が成り立たない根拠や、ポジティブ/ネガティブ/ニュートラルといった感情極性ラベルや、宿の特徴が含まれているかどうかというラベルも付与されています。

含意関係コーパス: 約55,000件

data_rte_sv

宿の特徴判定文コーパス・感情極性コーパス: 約5,600件

data_rhr
Evidence-based Explanation Dataset (根拠説明データセット)

本データセットは You May Like This Hotel Because … :Identifying Evidence for Explainable Recommendations ( AACL-IJCNLP 2020 ) 、旅行情報サイトのレビューを用いた要請要求に対する根拠付き推薦文の生成 ( NLP2020 ) にて使用された根拠説明生成用のデータセットです。宿泊施設クチコミデータをベースに、アノテーション作業者による根拠の特定と根拠文から推薦文への言い換えの評価データセットが含まれます。

データセット: 約37,300件

org_evidence-based_explanation
evidence_identification_dataset
  • evidence_explanation_dataset/(train|dev|test).src
  • evidence_explanation_dataset/(train|dev|test).trg
evidence_explanation_dataset2
お問い合わせ

本学術研究用データセットにつきまして、以下のように何かお気づきの点がございましたら、下記お問い合わせ先へご連絡ください。

  • データセット学術研究に利用されるにあたってのご質問や技術的なお問い合わせ
  • 「宿泊施設クチコミ」を投稿をされたご本人様による個別のデータに関するお問い合わせ
  • その他

お問い合わせ先: nlp_data_support@r.recruit.co.jp