言語処理学会(NLP)

2020
松田 寛, 若狭 絢(国立国語研究所), 山下 華代, 大村 舞(国立国語研究所), 浅原 正幸(国立国語研究所)
Universal Dependencies (UD) は、多言語間で共通のアノテーション方式を用いて係り受けのツリーバンクを開発する国際プロジェクトである。浅原ほか (2019) は日本語の UD リソースの現状をまとめている。この中で、元テキストも含めて再配布可能なものは UD Japanese PUD と UD Japanese GSD の 2 つである。しかしながら、これらのリソースも、ライセンスや文の欠損などのさまざまな問題を抱えている。これらの問題を解決するために、我々は UD Japanese GSD の再整備を進めている。ライセンスや失われた情報の復元を進めるとともに、ほかの日本語 UD リソースに合わせて、Omura and Asahara (2018) の手法に基づいたデータの整備を進めた。また、新たに固有表現情報を付与した。これらの作業により、spaCy 標準日本語モデルへの依存構造解析・固有表現抽出モデルの搭載が可能になる。spaCy は多言語の字句解析・固有表現抽出・品詞タグ付け・ラベル付き依存構造解析機能を提供する汎用自然言語処理フレームワークであるが、言語モデル整備時に学習元データを同梱する必要があった。今回、商用利用可能なライセンスに変更し、固有表現情報を付与した UD Japanese GSD を再整備することで spaCyの言語モデル整備に必要な標準的な要件を満たすことになる。