HyperAIHyperAI
vor 2 Monaten

Mehrsichtdetektion mit Shadow Transformer (und view-kohärenter Datenverstärkung)

Hou, Yunzhong ; Zheng, Liang
Mehrsichtdetektion mit Shadow Transformer (und view-kohärenter Datenverstärkung)
Abstract

Die Multiview-Erkennung integriert mehrere Kameraperspektiven, um Verdeckungen zu bewältigen, und ihr zentrales Problem ist die Aggregation der Multiview-Informationen. Angesichts von Merkmalskartenprojektionen aus mehreren Perspektiven auf eine gemeinsame Grundebene löst die neueste Methode dieses Problem durch Faltung, wobei dieselbe Berechnung unabhängig vom Objektstandort angewendet wird. Allerdings könnten solche translationsinvariante Verhaltensweisen nicht die beste Wahl sein, da Objektmerkmale je nach ihrer Position und den verwendeten Kameras unterschiedliche Projektionsverzerrungen unterliegen. In dieser Arbeit schlagen wir einen neuen Multiview-Detektor, MVDeTr (Multi-View Detection Transformer), vor, der einen neu eingeführten Schatten-Transformer zur Aggregation der Multiview-Informationen verwendet. Im Gegensatz zu Faltungen richtet der Schatten-Transformer seine Aufmerksamkeit je nach Position und Kamera unterschiedlich aus, um verschiedene schattenartige Verzerrungen zu behandeln. Wir stellen ein effektives Trainingsverfahren vor, das eine neue view-konsistente Datenverstärkungsmethode einschließt, die zufällige Verstärkungen anwendet, während sie die Konsistenz zwischen den verschiedenen Perspektiven beibehält. An zwei Benchmarks für Multiview-Erkennung melden wir mit dem vorgeschlagenen System neue Standards in Bezug auf Genauigkeit. Der Quellcode ist unter https://github.com/hou-yz/MVDeTr verfügbar.

Mehrsichtdetektion mit Shadow Transformer (und view-kohärenter Datenverstärkung) | Neueste Forschungsarbeiten | HyperAI