vor 2 Monaten

Langreichweitiger Gruppierungs-Transformer für die mehrfach-sichtbasierte 3D-Rekonstruktion

Yang, Liying ; Zhu, Zhenwei ; Lin, Xuxin ; Nong, Jian ; Liang, Yanyan

Abstract

In den heutigen Zeiten haben Transformer-Netze in vielen Aufgaben der Computer Vision eine überlegene Leistung gezeigt. In einem Multi-View-3D-Rekonstruktionsalgorithmus, der diesem Paradigma folgt, muss die Selbst-Aufmerksamkeitsverarbeitung mit komplexen Bildtoken umgehen, die große Mengen an Informationen enthalten, insbesondere bei einer hohen Anzahl von Eingangssichten. Das Informationsfluch führt zu extremen Schwierigkeiten beim Modelllernen. Um dieses Problem zu lindern, reduzieren aktuelle Methoden die Anzahl der Token, die jede Sicht repräsentieren, oder verzichten auf die Aufmerksamkeitsoperationen zwischen Token aus verschiedenen Sichten. Offensichtlich haben diese Ansätze einen negativen Einfluss auf die Leistung. Daher schlagen wir das Long-Range Grouping Attention (LGA) vor, das auf dem Prinzip „Teile und herrsche“ basiert. Token aus allen Sichten werden in Gruppen zusammengefasst, für die getrennte Aufmerksamkeitsoperationen durchgeführt werden. Die Token in jeder Gruppe werden aus allen Sichten abgetastet und können eine makroskopische Repräsentation für die jeweilige Sicht liefern. Die Vielfalt innerhalb verschiedener Gruppen gewährleistet die Reichhaltigkeit des Feature-Lernens. So kann ein effektiver und effizienter Encoder eingerichtet werden, der inter-sichtliche Features mithilfe von LGA verbindet und intra-sichtliche Features mittels der Standard-Selbst-Aufmerksamkeitsschicht extrahiert. Darüber hinaus wurde auch ein neuer progressiver Upsampling-Decoder entwickelt, um Voxel mit relativ hoher Auflösung zu generieren. Basierend auf dem Obigen haben wir ein leistungsstarkes Transformer-basiertes Netzwerk konstruiert, das LRGT genannt wird. Experimentelle Ergebnisse auf ShapeNet bestätigen, dass unsere Methode den besten aktuellen Stand (SOTA) in Bezug auf Genauigkeit bei der Multi-View-Rekonstruktion erreicht. Der Code wird unter https://github.com/LiyingCV/Long-Range-Grouping-Transformer zur Verfügung gestellt.