言語処理学会(NLP)

2019
松田 寛, 大村 舞(国立国語研究所), 浅原 正幸(国立国語研究所)
近年、オープンソース・ソフトウェア(以下 OSS)として Stanford Core-NLP1や spaCy2のような高機能な NLP フレームワークが利用可能となっている。これらは商用利用も可能3なライセンス形態で供与されている。特に商用アプリケーションでは i18n 対応コストが重視されることが多く、NLP フレームワークには(プログラムを書き換えることなく)リソース切り替えのみで様々な言語に対応可能であることが要請される。Stanford Core-NLP や spaCy では英語以外の多くの言語リソースが提供されているが、日本語には未対応の状況が⾧く続いており、日本国内での NLP フレームワーク普及促進を妨げる要因となるばかりでなく、データサイエンス領域における日本語のプレゼンス低下に繋がることが懸念される。本稿では Universal Dependencies (Zeman[1])(UD)に基づいて設計された spaCy を NLP フレームワークとして採用し、その日本語版リソースの実現に不可欠な学習系・解析系の機能実装と精度評価を行う。UD に基づく正解コーパスには現代日本語書き言葉均衡コーパス BCCWJ (Maekawa[2])を UD 化した UDJapanese BCCWJ (Omura[3])を用いる。日本語の平文を UD に基づいてトークン化するには形態素解析器が必要となる。spaCy は Python ライブラリとして提供されるため、本稿では形態素解析器Sudachi (Takaoka[4])の Python クローンである SudachiPy4 を使用することで言語リソースの PurePython 化を実現する。Sudachi の辞書は UniDic 短単位品詞体系 (伝[5])をベースとするため、UniDic 体系に基づいて設計された UD-Japanese BCCWJ との親和性は高い。ただし、UD-Japanese BCCWJ の構築には後述のように UniDic ⾧単位品詞の参照が必要となるため、UniDic 短単位品詞体系に含まれる可能性に基づく品詞の解決(短単位品詞の用法曖昧性解決)が必要となる。本稿では依存関係ラベルに正解品詞を埋め込むことで、短単位品詞の用法曖昧性解決と依存構造解析を同時学習する方式を提案・評価する。