言語処理学会 (NLP)

2026
大村 舞 (大阪樟蔭女子大学), 若狭 絢 (東北大学), 松田 寛, 浅原 正幸 (国立国語研究所)
本研究では,日本語日常会話コーパス (CEJC) をUniversal Dependencies形式に変換した日本語話し言葉のツリーバンク UD Japanese-CEJCを開発・構築したので,そのデータについて報告する.日本語日常会話コーパスは,日本語の様々な日常会話を収録した大規模な音声言語コーパスであり,単語区切りや品詞のアノテーションが含まれている.我々は,UD Japanese-CEJCのために,CEJCの長単位形態論情報と文節係り受け情報を新たにアノテーションした.UD Japanese-CEJCは日本語形態論情報と文節 ベースの依存構造情報およびCEJCから手作業で整備された変換ルールに従って構築した.構築したUD Japanese-CEJCに対して,日本語書き言葉コーパスとの比較やUD依存構造解析精度の評価をおこない,CEJCにおけるUD構築に関する様々な問題点を検討した.