2ヶ月前

KERMIT: シーケンスの生成挿入モデル

William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit
KERMIT: シーケンスの生成挿入モデル
要約

私たちは KERMIT を提案します。これは、シーケンスとシーケンス対の生成モデルに向けた単純な挿入ベースの手法です。KERMIT は単一のニューラルネットワークを使用して、同時分布およびその分解(すなわち、周辺分布と条件付き分布)をモデル化します。多くの先行研究とは異なり、データ分布の事前指定された因数分解に依存しません。学習中には、ペアデータ $(x, y)$ を KERMIT に入力して同時分布 $p(x, y)$ を学習し、任意で非ペアデータ $x$ や $y$ を混ぜて周辺分布 $p(x)$ や $p(y)$ を改良することができます。推論時には、両方向の条件付き分布 $p(x \mid y)$ と $p(y \mid x)$ にアクセスできます。また、同時分布や周辺分布からサンプリングすることも可能です。このモデルは、直列完全自己回帰デコーディングと並列部分自己回帰デコーディングの両方をサポートしており、後者では実証的に対数的な実行時間を示しています。機械翻訳、表現学習、ゼロショットクローズ型質問応答における実験を通じて、私たちの統合的な手法が特定の問題に依存したアーキテクチャの適応を必要とせずに広範なタスクにおいて専門的な最先端システムと同等またはそれ以上の性能を達成できることが示されています。