Aggrégation attentionnelle robuste de jeux de caractéristiques profondes pour la reconstruction 3D multi-vue

Nous étudions le problème de la restitution d'une forme 3D sous-jacente à partir d'un ensemble d'images. Les approches actuelles basées sur l'apprentissage s'appuient généralement sur des réseaux neuronaux récurrents, tels que le GRU (Gated Recurrent Unit), ou sur des opérations de regroupement intuitives, comme les regroupements par maximum ou moyenne, pour fusionner plusieurs caractéristiques profondes encodées à partir des images d'entrée. Cependant, les approches basées sur le GRU ne peuvent pas estimer de manière cohérente les formes 3D en fonction des différentes permutations du même ensemble d'images d'entrée, car l'unité récurrente est sensible à la permutation. Il est également peu probable que ces approches affinent la forme 3D avec un plus grand nombre d'images en raison de la perte de mémoire à long terme du GRU. Les méthodes de regroupement couramment utilisées sont limitées à la capture d'informations partielles, telles que les valeurs maximales ou moyennes, ignorant ainsi d'autres caractéristiques précieuses. Dans cet article, nous présentons un nouveau module neuronal feed-forward nommé AttSets, associé à un algorithme d'entraînement dédié appelé FASet (Feed-Forward Attention Set), permettant une agrégation attentive d'un ensemble de caractéristiques profondes de taille arbitraire pour la reconstruction 3D multi-vue. Le module AttSets est invariant par permutation, efficace sur le plan computationnel et flexible à mettre en œuvre, tandis que l'algorithme FASet permet au réseau basé sur AttSets d'être remarquablement robuste et capable de généraliser à un nombre arbitraire d'images d'entrée. Nous évaluons rigoureusement FASet et les propriétés d'AttSets sur plusieurs grands ensembles de données publics. De nombreux expériences montrent que AttSets associé à l'algorithme FASet surpassent significativement les approches existantes d'agrégation.