Mécanismes d'attention éparses et continus

Les familles exponentielles sont largement utilisées en apprentissage automatique ; elles englobent de nombreuses distributions tant continues que discrètes (par exemple, les lois gaussiennes, dirichlet, poisson, et catégorielles via la transformation softmax). Chaque distribution appartenant à ces familles possède un support fixe. En revanche, pour les domaines finis, des travaux récents ont proposé des alternatives plus creuses à la fonction softmax (comme sparsemax et alpha-entmax), qui admettent un support variable, permettant d’attribuer une probabilité nulle aux catégories non pertinentes. Ce papier étend ces travaux dans deux directions : premièrement, nous généralisons alpha-entmax aux domaines continus, mettant en évidence un lien avec la statistique de Tsallis et les familles exponentielles déformées. Deuxièmement, nous introduisons des mécanismes d’attention adaptés aux domaines continus, en dérivant des algorithmes efficaces de rétropropagation des gradients pour les valeurs α dans {1, 2}. Des expériences sur la classification de textes basée sur l’attention, la traduction automatique et la réponse à des questions visuelles illustrent l’utilisation de l’attention continue en dimension 1 et 2, montrant qu’elle permet d’attirer l’attention sur des intervalles temporels et des régions compactes.