言語処理学会(NLP)

2022
松田 寛, 大村舞(国立国語研究所), 浅原正幸 (国立国語研究所)
国語研の規程では,長単位は文節内部を自立語部分と付属語部分に分割する形で定義されるが,固有表現や複合辞・連語については個別の規則が適用される.また,長単位品詞は,短単位品詞の「名詞-普通名詞-副詞可能」「動詞-非自立可能」等の用法の曖昧性を,実際の文脈における用法で解決する必要がある.本研究では,Universal Dependencies に基づく依存構造解析モデルを拡張し,形態素解析器の短単位出力を長単位化する手法を評価した.同時に,用法に基づく 17 種の UPOS 推定結果,固有表現抽出結果,長単位末尾の形態素情報を組み合わせた長単位品詞判定規則を構築し,従来手法を上回る 97.2 ポイントの長単位品詞推定精度を得た.