HyperAIHyperAI
vor 2 Monaten

UMIFormer: Die Korrelationen zwischen ähnlichen Token für die mehrfache 3D-Rekonstruktion aus verschiedenen Ansichten eruieren

Zhenwei Zhu; Liying Yang; Ning Li; Chaohao Jiang; Yanyan Liang
UMIFormer: Die Korrelationen zwischen ähnlichen Token für die mehrfache 3D-Rekonstruktion aus verschiedenen Ansichten eruieren
Abstract

In den letzten Jahren haben viele Videoaufgaben durch die Nutzung von Vision Transformatoren und die Etablierung von räumlich-zeitlicher Entkoppelung für die Merkmalsextraktion Durchbrüche erzielt. Obwohl die mehrsichtige 3D-Rekonstruktion ebenfalls mit mehreren Bildern als Eingabe konfrontiert ist, kann sie deren Erfolg nicht sofort übernehmen, da es zwischen unstrukturierten Sichten vollständig vage Zuordnungen gibt. Es existiert kein nutzbares vorheriges Verhältnis, das dem zeitlichen Kohärenzeigenschaften eines Videos ähnelt. Um dieses Problem zu lösen, schlagen wir ein neues Transformer-Netzwerk für Unstrukturierte Mehrfachbilder (UMIFormer) vor. Dieses Netzwerk nutzt Transformer-Blöcke für entkoppeltes inner-sichtliches Codieren und speziell entwickelte Blöcke zur Token-Korrektur, die die Korrelation zwischen ähnlichen Tokens aus verschiedenen Sichten auswerten, um entkoppeltes inter-sichtliches Codieren zu erreichen. Anschließend werden alle Tokens, die aus verschiedenen Zweigen gewonnen wurden, in eine feste Größe kompakt zusammengefasst, während gleichzeitig reichhaltige Informationen für die Rekonstruktion erhalten bleiben, indem man die Ähnlichkeiten zwischen den Tokens nutzen kann. Wir demonstrieren empirisch anhand von ShapeNet und bestätigen damit, dass unsere entkoppelte Lernmethode sich auf unstrukturierte Mehrfachbilder anwenden lässt. Gleichzeitig verifizieren die Experimente auch, dass unser Modell bestehende state-of-the-art Methoden deutlich übertreffen kann. Der Code wird unter https://github.com/GaryZhu1996/UMIFormer zur Verfügung gestellt.

UMIFormer: Die Korrelationen zwischen ähnlichen Token für die mehrfache 3D-Rekonstruktion aus verschiedenen Ansichten eruieren | Neueste Forschungsarbeiten | HyperAI