旅行情報サイト「じゃらん net」1には日々レビューが投稿され,さまざまな感想・意見・要望が集積されている.実際に宿泊したカスタマーの目線からなる情報であり,有益な情報源である.これを用いて,どのような宿の特徴がカスタマーに好評であるかという知識を得て整理をすることは,宿を提案する上で有益である.本研究では,1 文を知識の単位として扱い,ある 1 文と含意関係にある複数の文をその 1 文に集約することで知識を整理することを目的とする.そして,その目的
のために文間含意関係認識器の学習用コーパスの構築に取り組む.関係の表現形式は前提文が仮説文を含意するか否かの 2 値2とする.これまでの含意関係コーパス構築ではアノテータに1 文を提示し,事例3が与えた関係ラベルをもつようにもう 1 文を作文4してもらう方式が一般的である.しかしこのような作成方法は高コストであり,また偏った事例を収集してしまう可能性がある.例えば,Tsuchiyaは SNLI コーパス [2] にはもラベルの予測が前提文なしに可能な事例が多数コーパス内に存在することを示した.そこで,本研究ではアノテータによる作文は行わず,自然文のみで含意関係コーパスを構築する.また,応用と分析のしやすいコーパスを目指し,原子的な事例のみを含めるため,複雑な文構造をもつ文は除外し
た.加えて,アノテーション作業を確実にし,事例の分析もしやすくするために,非含意の場合はその根拠となる箇所を選択してもらった.著者が知る限りこのような根拠付きのアノテーションは含意関係アノテーションにおいて初めての試みである.以上の特徴をもつ本研究で作成したコーパスは公開を予定しており,アノテーション候補選定のために作成した宿の特徴判定文コーパスや感情極性コーパスも公開する予定である.