HyperAIHyperAI
vor 11 Tagen

Eine Übersicht über Deep Learning-Techniken für die Tiefenschätzung basierend auf Stereo-Bildern

Hamid Laga, Laurent Valentin Jospin, Farid Boussaid, Mohammed Bennamoun
Eine Übersicht über Deep Learning-Techniken für die Tiefenschätzung basierend auf Stereo-Bildern
Abstract

Die Schätzung der Tiefe aus RGB-Bildern ist ein seit langem bestehendes schlecht gestelltes Problem, das seit Jahrzehnten von der Computer Vision-, Grafik- und Maschinenlerngemeinschaft erforscht wird. Unter den bestehenden Techniken bleibt die Stereoübereinstimmung (stereo matching) aufgrund ihrer engen Verbindung zum menschlichen binokularen Sehsystem eine der am häufigsten verwendeten Methoden in der Literatur. Traditionell wurde die auf Stereo basierende Tiefenschätzung durch die Übereinstimmung handgezeichneter Merkmale über mehrere Bilder hinweg angegangen. Trotz umfangreicher Forschung leiden diese klassischen Ansätze weiterhin unter hochstrukturierten Bereichen, großen homogenen Regionen und Verdeckungen (Occlusions). Angeregt durch ihren wachsenden Erfolg bei der Lösung verschiedener 2D- und 3D-Vision-Aufgaben hat das tiefe Lernen für die stereo-basierte Tiefenschätzung zunehmendes Interesse in der Forschungsgemeinschaft geweckt, wobei zwischen 2014 und 2019 mehr als 150 Publikationen in diesem Bereich erschienen sind. Diese neue Generation von Methoden hat eine erhebliche Leistungssteigerung erzielt und Anwendungen wie autonome Fahrzeuge und erweiterte Realität ermöglicht. In diesem Artikel geben wir eine umfassende Übersicht über dieses dynamisch wachsende Forschungsfeld, fassen die häufigsten Arbeitsabläufe (pipelines) zusammen und diskutieren deren Vor- und Nachteile. Auf der Grundlage dessen, was bisher erreicht wurde, spekulieren wir auch über die zukünftigen Entwicklungen im Bereich des tiefen Lernens für die stereo-basierte Tiefenschätzung.

Eine Übersicht über Deep Learning-Techniken für die Tiefenschätzung basierend auf Stereo-Bildern | Neueste Forschungsarbeiten | HyperAI