HyperAIHyperAI
vor 18 Tagen

Chitransformer: Hin zu zuverlässiger Stereo-Wiedergabe aus Hinweisen

{Shihao Ji, Qing Su}
Chitransformer: Hin zu zuverlässiger Stereo-Wiedergabe aus Hinweisen
Abstract

Aktuelle Stereo-Abstandsschätzungstechniken stoßen auf Herausforderungen durch begrenzten Suchraum, verdeckte Bereiche und enorme Datengrößen. Während die Tiefenschätzung aus einer einzigen Bildquelle diesen Schwierigkeiten entgeht und mit den extrahierten monokularen Merkmalen zufriedenstellende Ergebnisse erzielen kann, fehlt der monokulären Vorhersage aufgrund des Fehlens stereoskopischer Beziehungen die zuverlässige Grundlage, insbesondere in dynamischen oder stark strukturierten Umgebungen. Um diese Probleme in beiden Szenarien zu bewältigen, stellen wir eine selbstüberwachte, binokulare Tiefenschätzungsmethode vor, die sich am optischen Chiasma im menschlichen visuellen System orientiert. Dabei wird ein Vision-Transformer (ViT) mit gated positional cross-attention (GPCA)-Schichten entworfen, um musterempfindliche Merkmalsretrieval zwischen Blickrichtungen zu ermöglichen, während gleichzeitig die umfassende Kontextinformation durch Selbst-Attention-Aggregation erhalten bleibt. Die monokularen Merkmale aus einer einzelnen Ansicht werden anschließend bedingt durch eine Mischschicht mit den rekonstruierten Musterpaaren korrigiert. Diese Kreuzverbindung ist biologisch analog zum optischen Chiasma und begründet den Namen ChiTransformer. Unsere Experimente zeigen, dass diese Architektur gegenüber aktuellen state-of-the-art-Methoden zur selbstüberwachten Stereoabstandsschätzung eine signifikante Verbesserung um 11 % erzielt und sowohl auf rektilinearen als auch auf nicht-rektilinearen (z. B. Fisheye) Bildern eingesetzt werden kann.