文脈を踏まえた文の解釈生成に関する論文(LREC 2022)の実装の公開
LREC 2022で発表した論文 Self-Contained Utterance Description Corpus for Japanese Dialog の実装 Pilota (パイロッタ) を公開しました.
Pilotaは文脈を踏まえ,文の解釈を生成します.
入出力の例を示します.
発話者 | 入力(発話) | 出力 (SCUD) |
---|---|---|
エージェント | 今回の旅行はどういったご旅行でしょうか? | – |
ユーザ | 家族で一泊して、USJに行こうと思ってます。 | 今回の旅行は家族で一泊して、USJに行く。 |
エージェント | なるほど、ホテルはもうお決まりですか? | – |
ユーザ | まだです。 | ホテルはまだ決まっていない。 |
ただ、近くが良いなとは思ってて。 | ホテルはUSJの近くが良い。 | |
景色が良くて食事も美味しいところが良いです | 景色が良いホテルが良い。 食事が美味しいホテルが良い。 |
これは宿を探しているユーザとエージェントの対話です.
ユーザの「ただ、近くが良いなとは思ってて。」という発話には「何の近くか」や「何が良いのか」という情報が省略されています.
したがって,その1文を読むだけでユーザの意図を理解することはできず,どのような文脈での発言かを確認する必要があります.
そこでPilotaは「ホテルは USJの 近くが良い。」といったように,1文を読むだけで文の解釈を理解できるように出力します.
また,Pilotaは「景色が良くて食事も美味しいところが良いです」のように,複数の事柄が1つの文の中で述べられていると,「景色が良いホテルが良い。」「食事が美味しいホテルが良い」と分解して簡潔な文を出力します.
我々はこれらの出力を論文内では”SCUD” (Self-Contained Utterance Description) と呼んでいます.
公開モデル
Pilotaは訓練済みモデルを使って動作します.
今回モデルを3種類公開しました.
学習に使ったデータも合わせて公開しています.
モデル | 入力文脈 | 入力発話 | 出力 |
---|---|---|---|
pilota_dialog | 宿探しを行っているユーザとエージェントの発話 | ユーザの最後の発話 | ユーザのSCUD |
pilota_scud2query | (なし) | ユーザのSUCD | レビュー検索用クエリ |
pilota_hotel_review | (なし) | 宿のレビュー | レビューのSCUD |
pilota_dialog
最初にご紹介した例のように,宿探しを行っているユーザとエージェントの発話から,ユーザの最後の発話のSCUDを生成するモデルです.
pilota_scud2query
ユーザのSCUDを検索用クエリに変換するモデルです.
例えば「部屋に冷蔵庫があると良い。」というSCUDをそのまま典型的なレビュー検索に使うと,「部屋に冷蔵庫があると良かったです」といったように,実際には冷蔵庫がなかったと述べているレビューがヒットしてしまいます.
そこで,このモデルはレビュー検索用に,レビューで用いられているような表現に変換します.
ユーザのSCUD | レビュー検索用クエリ |
---|---|
部屋に冷蔵庫があると良い。 | 部屋に冷蔵庫がある。 |
レンタカーサービスがあるホテルを【customer】が希望する。 | レンタカーサービスがあるホテルだ。 |
pilota_hotel_review
宿のレビューをSCUDに変換するモデルです.
このモデルは句の区切り記号▔
も同時に出力します.
宿のレビュー | レビューのSCUD |
---|---|
平和記念公園へも徒歩圏内で駐車場もあり、便利なホテルです。 | 平和記念公園へ▔徒歩圏内だ。 駐車場が▔ある。 便利なホテルだ。 |
参考文献
このツールに関しての詳細は以下の論文をご覧ください.