9日前

フィードバックメモリを用いたTransformerのいくつかの限界への対応

Angela Fan, Thibaut Lavril, Edouard Grave, Armand Joulin, Sainbayar Sukhbaatar
フィードバックメモリを用いたTransformerのいくつかの限界への対応
要約

Transformerは、再帰型ニューラルネットワークとは異なり、入力トークンを並列に処理する際に注意機構(attention)を用いることで、時系列的関係を捉えることができるため、順次的かつ自己回帰的なタスクに成功裏に適用されてきた。この並列処理により計算効率が向上する一方で、モデルは入力の順次性を完全に活用できず、ある層における表現は、すでに計算済みの高レベルな表現ではなく、下位層の表現しか参照できないという制約がある。本研究では、過去のすべての表現を将来のすべての表現にアクセス可能にする「フィードバックTransformer(Feedback Transformer)」アーキテクチャを提案する。これにより、現在の時刻ステップにおける最低レベルの表現は、過去の最高レベルの抽象表現から構成される。言語モデリング、機械翻訳、強化学習の多様なベンチマークにおいて、拡張された表現能力により、従来のTransformerと比較して、より小さな深さのモデルでも大幅に優れた性能を達成できることを実証した。

フィードバックメモリを用いたTransformerのいくつかの限界への対応 | 最新論文 | HyperAI超神経