HyperAIHyperAI
il y a 11 jours

Poly-NL : Couches non locales à complexité linéaire basées sur des polynômes

Francesca Babiloni, Ioannis Marras, Filippos Kokkinos, Jiankang Deng, Grigorios Chrysos, Stefanos Zafeiriou
Poly-NL : Couches non locales à complexité linéaire basées sur des polynômes
Résumé

Les couches d’attention spatiale sous la forme de blocs Non-Local introduisent des dépendances à longue portée dans les réseaux de neurones convolutionnels en calculant les similarités par paires entre toutes les positions possibles. Ces fonctions par paires fondent l’efficacité des couches non locales, mais déterminent également une complexité qui croît quadratiquement en fonction de la taille d’entrée, à la fois dans l’espace et dans le temps. Ce facteur est un obstacle majeur qui limite fortement l’application pratique des blocs non locaux, même à des entrées de taille modérée. Les travaux antérieurs se sont concentrés sur la réduction de cette complexité en modifiant les opérations matricielles sous-jacentes ; toutefois, dans ce travail, nous visons à préserver l’expressivité complète des couches non locales tout en maintenant une complexité linéaire. Nous surmontons la limitation d’efficacité des blocs non locaux en les reformulant comme des cas particuliers de fonctions polynomiales d’ordre trois. Ce constat nous permet de proposer de nouvelles architectures de blocs Non-Local rapides, capables de réduire la complexité de quadratique à linéaire sans perte de performance, en remplaçant tout calcul direct des similarités par paires par des multiplications élémentaires. La méthode proposée, que nous désignons sous le nom de « Poly-NL », atteint des performances compétitives avec les états de l’art sur des tâches telles que la reconnaissance d’images, la segmentation d’instances et la détection de visages, tout en présentant un surcroît de calcul considérablement réduit.

Poly-NL : Couches non locales à complexité linéaire basées sur des polynômes | Articles de recherche récents | HyperAI