
要約
多くのタスク、言語生成を含むものにおいて、出力空間の構造を学習することが有益です。特に、出力ラベルの空間が大きく、データが希薄な場合にその効果は顕著です。最先端のニューラル言語モデルは、出力ラベル間でパラメータ共有がないため、分類器の重みを通じて間接的に出力空間の構造を捉えています。共有出力ラベルマッピングを学習することは役立ちますが、既存の方法には表現能力が限られており、過学習しやすいという問題があります。本論文では、より強力な共有マッピングの有用性について調査し、層間でドロップアウトを行う深層残差出力マッピングを提案します。これは出力空間の構造をよりよく捉え、過学習を避けることを目指しています。3つの言語生成タスクにおける評価結果は、我々の出力ラベルマッピングが最先端の再帰型および自己注意アーキテクチャと同等かそれ以上の性能を示すことを示しており、分類器が高ランクである必要はないことが示唆されています。つまり、出力空間の構造をよりよく捉えることができれば、自然言語をより適切にモデル化することができます。注:「深層残差出力マッピング」(deep residual output mapping)や「再帰型および自己注意アーキテクチャ」(recurrent and self-attention architectures)などの専門用語は一般的な日本語訳を使用しました。「高ランク」(high-rank)については、「ランクが高い」という意味で使用していますが、文脈によっては「大規模」や「多階層」などとも訳されることがあります。