HyperAIHyperAI
vor 2 Monaten

Robuste Aufmerksamkeitsbasierte Aggregation von Tiefenmerkmengen für die mehransichtsbasierte 3D-Rekonstruktion

Bo Yang; Sen Wang; Andrew Markham; Niki Trigoni
Robuste Aufmerksamkeitsbasierte Aggregation von Tiefenmerkmengen für die mehransichtsbasierte 3D-Rekonstruktion
Abstract

Wir untersuchen das Problem der Wiederherstellung einer zugrundeliegenden 3D-Form aus einem Satz von Bildern. Bestehende lernbasierte Ansätze greifen in der Regel auf rekurrente neuronale Netze, wie z.B. GRU (Gated Recurrent Unit), oder intuitive Pooling-Operationen, wie z.B. Max-/Mittelwert-Pooling, zurück, um mehrere tief eingebettete Merkmale aus den Eingangsbildern zu fusionieren. Allerdings sind GRU-basierte Ansätze nicht in der Lage, konsistente 3D-Formen bei verschiedenen Permutationen desselben Satzes von Eingangsbildern zu schätzen, da die rekurrente Einheit permutationsvariant ist. Es ist auch unwahrscheinlich, dass die 3D-Form durch zusätzliche Bilder verfeinert wird, aufgrund des langfristigen Gedächtnisverlusts von GRU. Häufig verwendete Pooling-Methoden sind darauf beschränkt, partielle Informationen zu erfassen, wie z.B. Maximal- oder Mittelwerte, und ignorieren andere wertvolle Merkmale. In dieser Arbeit stellen wir ein neues feedforward neuronales Modul vor, das AttSets genannt wird, sowie einen speziellen Trainingsalgorithmus namens FASet (Feedforward Aggregation Set), um eine beliebig große Menge an tiefen Merkmalen für die Multi-View 3D-Rekonstruktion aufmerksam zusammenzuführen. Das AttSets-Modul ist permutationsinvariant, rechnerisch effizient und flexibel in der Implementierung; während der FASet-Algorithmus das AttSets-basierte Netzwerk erheblich robust macht und es ermöglicht, sich auf eine beliebige Anzahl von Eingangsbildern zu verallgemeinern. Wir evaluieren FASet und die Eigenschaften von AttSets gründlich an mehreren großen öffentlichen Datensätzen. Umfangreiche Experimente zeigen, dass AttSets in Verbindung mit dem FASet-Algorithmus bestehende Aggregationsansätze deutlich übertrifft.