
要約
本稿では、二分木化(binarization)を事前処理として行わない設定下におけるグラフベース構文解析の課題に取り組む。この設定では、構文木のノードが2つ以上の子ノードを持つn-ary構造を許容する。従来のグラフベース手法では、予測のための二分木に変換するために、n-aryノード内部にダミーラベルを持つ隠れノードを挿入する手法が一般的であった。しかしながら、この手法の限界は、隠れノードの導入によってn-aryノードの子ノード間の兄弟関係が破壊されてしまう点にあり、その結果、兄弟構成要素間の依存関係が正確にモデル化されず、無視されてしまう可能性がある。この課題を解決するために、本研究では「再帰的準マルコフモデル(recursive semi-Markov model)」と呼ばれる新しいグラフベース枠組みを提案する。本モデルの中心的なアイデアは、1次準マルコフモデルを用いて、ある構成要素候補の直近の子ノード列を予測し、その結果を再帰的に親ノードの子候補として用いることにある。このアプローチにより、兄弟構成要素間の依存関係を1次遷移特徴によって効果的に表現可能となり、前述の課題を克服できる。実験の結果、提案手法はPTBデータセットにおいてF1スコア95.92%、CTB 5.1データセットにおいて92.50%を達成した。特に、2つ以上の子を持つノードのモデリングにおいて顕著な優位性が示され、PTBでは平均F1が0.3~1.1ポイント、CTB 5.1では2.3~6.8ポイント向上した。