言語処理学会(NLP)

2023
大村 舞(国立国語研究所), 若狭 絢(国立国語研究所), 松田 寛, 浅原 正幸(国立国語研究所)
Universal Dependenciesに基づく言語資源の構築が各言語で進められている。日本語においてもUniversal Dependenciesに準拠する言語資源が構築されてきたが、すべて書き言葉に基づくものであった。本研究では、日本語 Universal Dependenciesの新しい言語資源として、『日本語日常会話コーパス』に基づく UD Japanese-CEJC を構築したので報告する。既存の書き言葉の日本語 Universal Dependenciesの言語資源と同様に、国語研短単位形態論情報・国語研長単位形態論情報・文節係り受けに基づく変換 規則によりデータの構築を行った。さらに、さまざまな条件により解析器を構築し、評価を行ったので報告する。