IA-RED$^2$ : Réduction de la redondance avec prise en compte de l'interprétabilité pour les transformateurs visuels

Le modèle basé sur l'auto-attention, le transformer, est récemment devenu la colonne vertébrale principale dans le domaine de la vision par ordinateur. Malgré les succès impressionnants réalisés par les transformers dans diverses tâches de vision, ils souffrent encore d'un calcul lourd et de coûts mémoire importants. Pour remédier à cette limitation, cet article présente un cadre de réduction de redondance conscient de l'interprétabilité (IA-RED$^2$). Nous commençons par observer une quantité importante de calculs redondants, principalement consacrés à des patchs d'entrée non corrélés, puis nous introduisons un module interprétable pour éliminer dynamiquement et gracieusement ces patchs redondants. Ce nouveau cadre est ensuite étendu à une structure hiérarchique, où les jetons non corrélés à différents stades sont progressivement supprimés, entraînant une réduction considérable du coût computationnel. Nous incluons des expériences approfondies sur des tâches d'images et de vidéos, où notre méthode peut offrir jusqu'à 1,4 fois plus de rapidité pour des modèles d'avant-garde comme DeiT et TimeSformer, en sacrifiant moins de 0,7 % d'exactitude. Plus important encore, contrairement aux autres approches d'accélération, notre méthode est intrinsèquement interprétable avec des preuves visuelles substantielles, rendant le transformer visuel plus proche d'une architecture compréhensible par l'homme tout en étant plus léger. Nous démontrons que l'interprétabilité qui émerge naturellement dans notre cadre peut surpasser l'attention brute apprise par le transformer visuel original ainsi que celles générées par des méthodes d'interprétation prêtes à l'emploi, tant qualitativement que quantitativement. Page du projet : http://people.csail.mit.edu/bpan/ia-red/.