HyperAIHyperAI
il y a 17 jours

Perceiver IO : une architecture générale pour les entrées et sorties structurées

Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, Joāo Carreira
Perceiver IO : une architecture générale pour les entrées et sorties structurées
Résumé

Un objectif central de l’apprentissage automatique consiste à développer des systèmes capables de résoudre un grand nombre de problèmes dans autant de domaines de données que possible. Les architectures actuelles, toutefois, ne peuvent être appliquées qu’à un petit ensemble de configurations stéréotypées, car elles intègrent des hypothèses propres au domaine ou à la tâche, ou échouent à échelle à de grandes entrées ou sorties. Dans ce travail, nous proposons Perceiver IO, une architecture polyvalente capable de traiter des données provenant de configurations arbitraires tout en échelonnant de manière linéaire avec la taille des entrées et des sorties. Notre modèle enrichit Perceiver d’un mécanisme de requête flexible, permettant des sorties de tailles et de sémantiques variées, ce qui élimine la nécessité d’une ingénierie d’architecture spécifique à chaque tâche. La même architecture obtient des résultats remarquables sur des tâches couvrant la compréhension du langage naturel et visuelle, le raisonnement multi-tâches et multi-modal, ainsi que sur StarCraft II. En particulier, Perceiver IO surpasser une base de référence basée sur un Transformer (BERT) sur le benchmark linguistique GLUE, malgré la suppression de la tokenisation d’entrée, et atteint des performances de pointe sur l’estimation du flux optique Sintel, sans recourir à des mécanismes explicites pour la correspondance multi-échelle.