HyperAIHyperAI

Command Palette

Search for a command to run...

Langreichweitiger Gruppierungs-Transformer für die mehrfach-sichtbasierte 3D-Rekonstruktion

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Zusammenfassung

In den heutigen Zeiten haben Transformer-Netze in vielen Aufgaben der Computer Vision eine überlegene Leistung gezeigt. In einem Multi-View-3D-Rekonstruktionsalgorithmus, der diesem Paradigma folgt, muss die Selbst-Aufmerksamkeitsverarbeitung mit komplexen Bildtoken umgehen, die große Mengen an Informationen enthalten, insbesondere bei einer hohen Anzahl von Eingangssichten. Das Informationsfluch führt zu extremen Schwierigkeiten beim Modelllernen. Um dieses Problem zu lindern, reduzieren aktuelle Methoden die Anzahl der Token, die jede Sicht repräsentieren, oder verzichten auf die Aufmerksamkeitsoperationen zwischen Token aus verschiedenen Sichten. Offensichtlich haben diese Ansätze einen negativen Einfluss auf die Leistung. Daher schlagen wir das Long-Range Grouping Attention (LGA) vor, das auf dem Prinzip „Teile und herrsche“ basiert. Token aus allen Sichten werden in Gruppen zusammengefasst, für die getrennte Aufmerksamkeitsoperationen durchgeführt werden. Die Token in jeder Gruppe werden aus allen Sichten abgetastet und können eine makroskopische Repräsentation für die jeweilige Sicht liefern. Die Vielfalt innerhalb verschiedener Gruppen gewährleistet die Reichhaltigkeit des Feature-Lernens. So kann ein effektiver und effizienter Encoder eingerichtet werden, der inter-sichtliche Features mithilfe von LGA verbindet und intra-sichtliche Features mittels der Standard-Selbst-Aufmerksamkeitsschicht extrahiert. Darüber hinaus wurde auch ein neuer progressiver Upsampling-Decoder entwickelt, um Voxel mit relativ hoher Auflösung zu generieren. Basierend auf dem Obigen haben wir ein leistungsstarkes Transformer-basiertes Netzwerk konstruiert, das LRGT genannt wird. Experimentelle Ergebnisse auf ShapeNet bestätigen, dass unsere Methode den besten aktuellen Stand (SOTA) in Bezug auf Genauigkeit bei der Multi-View-Rekonstruktion erreicht. Der Code wird unter https://github.com/LiyingCV/Long-Range-Grouping-Transformer zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Langreichweitiger Gruppierungs-Transformer für die mehrfach-sichtbasierte 3D-Rekonstruktion | Paper | HyperAI