2ヶ月前

RNNにおける長期依存関係の学習に補助損失を用いる

Trieu H. Trinh; Andrew M. Dai; Minh-Thang Luong; Quoc V. Le
RNNにおける長期依存関係の学習に補助損失を用いる
要約

最近の再帰型ニューラルネットワーク(RNN)の訓練技術の進歩にもかかわらず、シーケンス内の長期依存関係を捉えることは依然として基本的な課題となっています。ほとんどの手法は時間方向への逆伝播(BPTT: Backpropagation Through Time)を使用していますが、非常に長いシーケンスに対してはそのスケーリングが困難です。本論文では、元の目的関数に非教師監督補助損失を追加することで、RNNにおける長期依存関係の捕捉能力を向上させる単純な方法を提案します。この補助損失により、RNNはシーケンス内の過去のイベントを再構築するか、次のイベントを予測するよう強制され、長期間の切断逆伝播が可能となり、また完全なBPTTも改善されます。我々は様々な設定でこの方法を評価しました。具体的には、最大16,000までのシーケンス長を持つピクセルごとの画像分類と実際の文書分類ベンチマークにおいて評価を行いました。結果は、競合する基準モデル(他の再帰型モデルや同等サイズのTransformerなど)と比較して、本アプローチが優れた性能とリソース効率を持っていることを示しています。さらに分析したところ、補助損失が最適化と正則化に有益な影響を与えていることが明らかになりました。また、ほとんどまたは全く逆伝播がない極端なケースでも有効であることが確認されました。