Apprentissage de la réponse à des questions visuelles par le bootstrap de l'attention difficile

Les mécanismes d'attention dans la perception biologique sont considérés comme sélectionnant des sous-ensembles d'informations perceptuelles pour un traitement plus sophistiqué, qui serait prohibitif à effectuer sur l'ensemble des entrées sensorielles. En vision par ordinateur, cependant, il y a eu relativement peu d'exploration du mécanisme d'attention « dure », où certaines informations sont sélectivement ignorées, malgré le succès de l'attention « douce », où les informations sont réévaluées et agrégées, mais jamais filtrées. Dans cette étude, nous introduisons une nouvelle approche pour l'attention « dure » et constatons qu'elle atteint des performances très compétitives sur des jeux de données récemment publiés en réponse visuelle aux questions, égalant et dépassant dans certains cas des architectures similaires basées sur l'attention « douce » tout en ignorant complètement certaines caractéristiques. Bien que le mécanisme d'attention « dure » soit généralement considéré comme non différentiable, nous avons découvert que les amplitudes des caractéristiques sont corrélées avec la pertinence sémantique et fournissent un signal utile pour le critère de sélection attentionnelle de notre mécanisme. Étant donné que l'attention « dure » sélectionne les caractéristiques importantes de l'information en entrée, elle peut également être plus efficace que les mécanismes analogues d'attention « douce ». Cela est particulièrement important pour les approches récentes qui utilisent des opérations binaires non locales, où les coûts computationnels et mémoire sont quadratiques par rapport à la taille de l'ensemble des caractéristiques.