PatchFormer : Un transformateur de points efficace basé sur l'attention par patch

La communauté du traitement des nuages de points assiste à un changement de paradigme dans la modélisation, passant des réseaux de neurones convolutifs (CNN) vers les architectures Transformer, où des modèles purement basés sur les Transformers ont atteint des performances de précision optimales sur les principales benchmarks d'apprentissage. Toutefois, les Transformers actuels pour nuages de points s'avèrent coûteux en termes de calcul, car ils doivent générer une grande carte d'attention, dont la complexité est quadratique (à la fois en espace et en temps) par rapport à la taille de l'entrée. Pour pallier cette limitation, nous proposons Patch ATtention (PAT), une méthode permettant d'apprendre de manière adaptative un ensemble réduit de bases sur lesquelles sont calculées les cartes d'attention. En combinant ces bases par une somme pondérée, PAT capture non seulement le contexte global de la forme, mais atteint également une complexité linéaire par rapport à la taille de l'entrée. Par ailleurs, nous introduisons un bloc léger Multi-Scale aTtention (MST) afin de construire des mécanismes d'attention entre des caractéristiques de différentes échelles, offrant ainsi au modèle des représentations multi-échelles. En intégrant PAT et MST dans une même architecture, nous proposons PatchFormer, un nouveau réseau neuronal conçu pour l'apprentissage sur nuages de points. Des expériences étendues montrent que notre réseau atteint une précision comparable aux Transformers précédents sur des tâches générales d'apprentissage de nuages de points, tout en offrant un gain de vitesse de 9,2 fois.