10日前
OmniNet:Transformerから得られる全方位表現
Yi Tay, Mostafa Dehghani, Vamsi Aribandi, Jai Gupta, Philip Pham, Zhen Qin, Dara Bahri, Da-Cheng Juan, Donald Metzler

要約
本稿では、Transformerから得られる全方位表現(Omnidirectional Representations)を提案する。OmniNetでは、従来の水平方向に限定された受容 field を維持するのではなく、各トークンがネットワーク全体のすべてのトークンに注目(attend)できるようにする。このプロセスは、ネットワークの全幅および全深さにわたる受容 field を持つ極端あるいは集中型の注目メカニズムと解釈できる。このような全方位注目は、メタラーナー(meta-learner)を用いて学習される。このメタラーナーは本質的に自己注目(self-attention)に基づくモデルである。全受容 field 注目による計算コストの高さを軽減するため、本研究ではカーネルベースの自己注目(Choromanski他)、低ランク注目(Wang他)、および/または Big Bird(Zaheer他)といった効率的な自己注目モデルをメタラーナーとして活用する。本手法は、自己回帰的言語モデリング(LM1B、C4)、機械翻訳、長距離領域アリーナ(LRA)、画像認識の4つのタスクにおいて広範な実験を実施した。実験の結果、OmniNetはこれらのタスクにおいて顕著な性能向上を達成しており、特にLM1B、WMT'14 En-De/En-Fr、およびLong Range Arenaにおいて最先端(SOTA)の性能を達成した。さらに、視覚Transformer(Vision Transformer)において全方位表現を用いることで、少データ学習(few-shot learning)および微調整(fine-tuning)の両設定において、画像認識タスクの性能が著しく向上することが確認された。