2ヶ月前

ビームサーチの連続リラクゼーションによるニューラルシーケンスモデルのエンドツーエンド学習

Kartik Goyal; Graham Neubig; Chris Dyer; Taylor Berg-Kirkpatrick

要約

ビームサーチは、神経系列モデルのテスト時のデコーディングアルゴリズムとして望ましい選択肢であるとされています。これは、より単純な貪欲法が犯す可能性のある探索誤りを回避できるためです。しかし、これらのモデルの一般的なクロスエントロピー訓練手順では、最終的なデコーディング方法の動作を直接考慮していません。その結果、クロスエントロピーで訓練されたモデルでは、ビームデコーディングが貪欲デコーディングに比べてテスト性能が低下することがあります。より効果的にビームサーチを利用できるモデルを訓練するために、私たちは新しい訓練手順を提案します。この手順は、ビームサーチの出力上で評価される最終的な損失指標（例：ハミング損失）に焦点を当てています。この「直接損失」目的関数は定義されていますが、非連続であり最適化が困難です。したがって、私たちのアプローチでは、ビームサーチデコーディング手順の新しい連続的な近似を導入することで、部分微分可能な代替目的関数を作成します。実験においては、この新しい訓練目的関数を最適化することで、クロスエントロピーで訓練された貪欲デコーディングとクロスエントロピーで訓練されたビームデコーディングの基準と比較して、2つの系列タスク（固有表現認識とCCGスーパータギング）において大幅に優れた結果を得ることができることを示しています。