17日前
S-DIORAを用いた教師なし構文解析:ディープインサイドアウトサイド再帰型オートエンコーダーのための単一木符号化
{Andrew McCallum, Mohit Iyyer, Tim O{'}Gorman, Yi-Pei Chen, Subendhu Rongali, Andrew Drozdov}

要約
深層的な内外再帰型自己符号化器(DIORA;Drozdov他, 2019)は、ラベル付き学習データにアクセスせずに、入力文に対して構文木構造を自動的に学習する自己教師型ニューラルモデルである。本論文では、DIORAが文のすべての可能な二分木をソフトな動的計画法によって網羅的に符号化している一方で、そのベクトル平均アプローチは局所的に貪欲であり、下向きチャート構文解析において最もスコアの高い解析木を計算する際に誤りを修正できないことを発見した。この問題を解決するために、チャートの各セルにおいてハードなargmax操作とビーム探索を導入し、複数の木のソフト重み付き混合ではなく単一の木を符号化する、DIORAの改良版であるS-DIORAを提案する。実験の結果、我々の新アルゴリズムを用いて事前に学習されたDIORAを微調整することで、英語WSJ Penn Treebankにおける無教師構文解析の最先端性能が、微調整に用いたデータに応じて2.2〜6%のF1スコア向上を達成した。