il y a 9 jours

OmniNet : Représentations omnidirectionnelles à partir de Transformers

Yi Tay, Mostafa Dehghani, Vamsi Aribandi, Jai Gupta, Philip Pham, Zhen Qin, Dara Bahri, Da-Cheng Juan, Donald Metzler

Résumé

Cet article propose Omnidirectional Representations from Transformers (OmniNet). Dans OmniNet, au lieu de maintenir un champ réceptif strictement horizontal, chaque token est autorisé à s'attarder sur tous les tokens de l'ensemble du réseau. Ce processus peut également être interprété comme une forme d'attention extrême ou intensive, dont le champ réceptif couvre toute la largeur et la profondeur du réseau. Pour ce faire, l'attention omnidirectionnelle est apprise à l’aide d’un méta-apprenant, qui est essentiellement un modèle basé sur l’attention auto-attention. Afin de réduire les coûts computationnels élevés associés à une attention sur un champ réceptif complet, nous utilisons des modèles d’attention auto-attention efficaces tels que l’attention basée sur noyaux (Choromanski et al.), l’attention à rang faible (Wang et al.) et/ou Big Bird (Zaheer et al.) comme méta-apprenant. Des expériences étendues sont menées sur des tâches de modélisation linguistique autoregressive (LM1B, C4), la traduction automatique, le Long Range Arena (LRA) et la reconnaissance d’images. Les résultats montrent qu’OmniNet obtient des améliorations significatives sur ces différentes tâches, notamment des performances de pointe sur LM1B, WMT’14 En-De/En-Fr et Long Range Arena. En outre, l’utilisation de représentations omnidirectionnelles dans les Transformers visuels conduit à des améliorations marquées sur les tâches de reconnaissance d’images, tant dans les scénarios d’apprentissage peu supervisé que dans ceux de fine-tuning.