HyperAIHyperAI
vor 2 Monaten

Beliebige Tiefenschätzung von Stereo-Bildern auf mobilen Geräten

Yan Wang; Zihang Lai; Gao Huang; Brian H. Wang; Laurens van der Maaten; Mark Campbell; Kilian Q. Weinberger
Beliebige Tiefenschätzung von Stereo-Bildern auf mobilen Geräten
Abstract

Viele Anwendungen der stereoskopischen Tiefenschätzung in der Robotik erfordern die Echtzeitgenerierung genauer Disparitätskarten unter erheblichen rechnerischen Einschränkungen. Aktuelle Standesalgorithmen zwingen zu einer Wahl zwischen entweder langsam generierten, aber genauen Abbildungen oder schnell generierten, aber ungenauen Abbildungen. Zudem benötigen diese Methoden in der Regel viel zu viele Parameter, um auf Geräten mit eingeschränkter Leistung oder Speicherplatz nutzbar zu sein. Angeregt durch diese Nachteile schlagen wir einen neuen Ansatz für die Disparitätsvorhersage im Anytime-Setting vor. Im Gegensatz zu früheren Arbeiten kann unser end-to-end gelernter Ansatz während der Inferenz Rechenleistung und Genauigkeit austauschen. Die Tiefenschätzung erfolgt in Stufen, wobei das Modell jederzeit abgefragt werden kann, um seine aktuell beste Schätzung auszugeben. Unser endgültiges Modell kann 1242 × 375 Auflösungsbilder in einem Bereich von 10-35 FPS auf einem NVIDIA Jetson TX2 Modul verarbeiten, wobei die Fehler nur marginal zunehmen – und zwar mit zwei Größenordnungen weniger Parametern als der wettbewerbsfähigste Baseline. Der Quellcode ist unter https://github.com/mileyan/AnyNet verfügbar.