
要約
確率分布の推定は、自然言語処理(NLP)分野における核心的な課題の一つである。しかし、ディープラーニング(DL)時代を含む前DL時代においても、系列ラベリングタスクにおける線形チェーンCRFの広範な応用とは対照的に、構文解析に木構造CRFを適用した研究は極めて少ない。その主な理由は、インサイド・アウトサイドアルゴリズムの計算の複雑さと非効率性に起因している。本研究では、高速かつ高精度なニューラルCRF構文解析器を提案する。その核心的なアイデアは、GPU上で大規模テンソル演算を直接行うことでインサイドアルゴリズムをバッチ化し、損失計算を高速化すること。同時に、効率的なバックプロパゲーションにより、勾配計算においてアウトサイドアルゴリズムを回避することである。さらに、効率をさらに高めるために、単純な二段階アプローチ(括弧付与→ラベリング)を提案する。解析性能の向上を目指し、最近の依存構文解析の進展に触発されて、境界表現(boundary representation)に基づく新しいスコアリングアーキテクチャとバイアフィンアテンション(biaffine attention)、および有益なドロップアウト戦略を導入した。PTB、CTB5.1、CTB7の各データセットにおける実験結果から、本研究の二段階CRF解析器はBERTを用いない(w/o BERT)および用いる(w/ BERT)両設定において、いずれも新たなSOTA(最良の成果)を達成し、1秒間に1,000文以上の解析が可能であることを示した。コードはGitHubにて公開されている:https://github.com/yzhangcs/crfpar。