il y a 2 mois

Points à Patches : Permettre l'Utilisation de l'Auto-Attention pour la Reconnaissance de Formes 3D

Berg, Axel ; Oskarsson, Magnus ; O'Connor, Mark

Résumé

Bien que l'architecture Transformer soit devenue omniprésente dans le domaine de l'apprentissage automatique, son adaptation à la reconnaissance de formes 3D n'est pas triviale. En raison de sa complexité computationnelle quadratique, l'opérateur d'auto-attention devient rapidement inefficace lorsque l'ensemble des points d'entrée s'agrandit. De plus, nous constatons que le mécanisme d'attention peine à établir des connexions utiles entre les points individuels sur une échelle globale. Pour atténuer ces problèmes, nous proposons une approche en deux étapes appelée Point Transformer-in-Transformer (Point-TnT), qui combine les mécanismes d'attention locale et globale, permettant ainsi aux points individuels et aux patchs de points de s'interconnecter efficacement. Les expériences menées sur la classification de formes montrent que cette approche fournit des caractéristiques plus utiles pour les tâches downstream que le Transformer de base, tout en étant plus efficace sur le plan computationnel. De plus, nous avons également étendu notre méthode au couplage de caractéristiques pour la reconstruction de scènes, démontrant qu'elle peut être utilisée en conjonction avec les pipelines existants de reconstruction de scènes.