
要約
依存解析は、入力文の構文構造を語との間の構文的関係を可視化することで分析する重要な基礎的な自然言語処理タスクである。依存解析の性能向上のため、既存の依存解析器や追加データ(例えば、半教師あり学習を通じて得られるデータ)を活用することが有効であることが示されており、その際、最終的な解析器は正確さに欠けるが大量なデータ上で学習される場合でも、依然として効果を発揮することが確認されている。本論文では、グラフベースの依存解析を改善するための「驚くほど簡単な」アプローチを提案する。本手法では、自動解析されたデータ上で構造に配慮したエンコーダを事前学習し、語の依存関係を予測することで、その後、正解の依存木上で微調整を行う。これは従来の事前学習プロセス(依存経路に沿った文脈語の予測を目的とする)とは異なる。実験結果および分析から、異なる解析器によって処理されたデータ(ノイズを含むものも含む)を活用する本手法の有効性と頑健性が示された。特に、事前学習および微調整に用いるモデルアーキテクチャや依存構造の標準が異なる設定下でも、強力なベースラインを上回る性能を達成した。さらに重要なことに、追加パラメータを追加せずに、単にvanilla BERT-largeベースの解析器を事前学習する場合、わずか2,000文の自動解析データで性能向上が達成可能であることが明らかになった。