il y a 17 jours

Attention auto-encodante à canaux multi-têtes locales pour la reconnaissance d'expressions faciales

Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo

Résumé

Depuis l’introduction de l’architecture Transformer en 2017, de nombreuses tentatives ont été faites pour intégrer le paradigme d’attention auto dans le domaine de la vision par ordinateur. Dans cet article, nous proposons un nouveau module d’attention auto pouvant être facilement intégré dans presque toutes les réseaux de neurones convolutifs, spécifiquement conçu pour la vision par ordinateur : le LHC (Local (multi) Head Channel (self-attention)). Le LHC repose sur deux idées principales : premièrement, nous pensons que, dans le domaine de la vision par ordinateur, la manière la plus efficace d’exploiter le paradigme d’attention auto réside dans une application canal par canal, plutôt que dans l’attention spatiale, plus largement explorée ; de plus, les réseaux convolutifs ne seront pas remplacés par des modules d’attention, à l’instar des réseaux récurrents en traitement du langage naturel. Deuxièmement, une approche locale a le potentiel de surmonter plus efficacement les limites des convolutions que l’attention globale. Grâce à LHC-Net, nous avons atteint un nouveau record sur le célèbre jeu de données FER2013, avec une complexité significativement réduite et une impact moindre sur l’architecture « hôte » en termes de coût computationnel par rapport aux méthodes précédemment considérées comme les meilleures.