文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開

文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開

LREC 2022で発表した論文 Self-Contained Utterance Description Corpus for Japanese Dialog の実装 Pilota (パイロッタ) を公開しました.
Pilotaは文脈を踏まえ,文の解釈を生成します.
入出力の例を示します.

発話者 入力(発話) 出力 (SCUD)
エージェント 今回の旅行はどういったご旅行でしょうか?
ユーザ 家族で一泊して、USJに行こうと思ってます。 今回の旅行は家族で一泊して、USJに行く。
エージェント なるほど、ホテルはもうお決まりですか?
ユーザ まだです。 ホテルはまだ決まっていない。
ただ、近くが良いなとは思ってて。 ホテルはUSJの近くが良い。
景色が良くて食事も美味しいところが良いです 景色が良いホテルが良い。
食事が美味しいホテルが良い。

これは宿を探しているユーザとエージェントの対話です.

ユーザの「ただ、近くが良いなとは思ってて。」という発話には「何の近くか」や「何が良いのか」という情報が省略されています.
したがって,その1文を読むだけでユーザの意図を理解することはできず,どのような文脈での発言かを確認する必要があります.
そこでPilotaは「ホテルは USJの 近くが良い。」といったように,1文を読むだけで文の解釈を理解できるように出力します.

また,Pilotaは「景色が良くて食事も美味しいところが良いです」のように,複数の事柄が1つの文の中で述べられていると,「景色が良いホテルが良い。」「食事が美味しいホテルが良い」と分解して簡潔な文を出力します.

我々はこれらの出力を論文内では”SCUD” (Self-Contained Utterance Description) と呼んでいます.

公開モデル

Pilotaは訓練済みモデルを使って動作します.
今回モデルを3種類公開しました.
学習に使ったデータも合わせて公開しています.

モデル 入力文脈 入力発話 出力
pilota_dialog 宿探しを行っているユーザとエージェントの発話 ユーザの最後の発話 ユーザのSCUD
pilota_scud2query (なし) ユーザのSUCD レビュー検索用クエリ
pilota_hotel_review (なし) 宿のレビュー レビューのSCUD

pilota_dialog

最初にご紹介した例のように,宿探しを行っているユーザとエージェントの発話から,ユーザの最後の発話のSCUDを生成するモデルです.

pilota_scud2query

ユーザのSCUDを検索用クエリに変換するモデルです.

例えば「部屋に冷蔵庫があると良い。」というSCUDをそのまま典型的なレビュー検索に使うと,「部屋に冷蔵庫があると良かったです」といったように,実際には冷蔵庫がなかったと述べているレビューがヒットしてしまいます.
そこで,このモデルはレビュー検索用に,レビューで用いられているような表現に変換します.

ユーザのSCUD レビュー検索用クエリ
部屋に冷蔵庫があると良い。 部屋に冷蔵庫がある。
レンタカーサービスがあるホテルを【customer】が希望する。 レンタカーサービスがあるホテルだ。

pilota_hotel_review

宿のレビューをSCUDに変換するモデルです.
このモデルは句の区切り記号も同時に出力します.

宿のレビュー レビューのSCUD
平和記念公園へも徒歩圏内で駐車場もあり、便利なホテルです。 平和記念公園へ▔徒歩圏内だ。
駐車場が▔ある。
便利なホテルだ。

参考文献

このツールに関しての詳細は以下の論文をご覧ください.

  1. Yuta Hayashibe.
    Self-Contained Utterance Description Corpus for Japanese Dialog.
    Proc of LREC, pp.1249-1255. (LREC 2022)
    [PDF]
  2. 林部祐太.
    要約付き宿検索対話コーパス.
    言語処理学会第27回年次大会論文集,pp.340-344. 2021. (NLP 2021)
    [PDF]
  3. 林部祐太.
    発話とレビューに対する解釈文生成とトピック分類.
    言語処理学会第29回年次大会論文集,pp.2013-2017. 2023. (NLP 2023)
    [PDF]

Share:

More Blog Posts: