Struktur-angemessenes Gedächtnisnetzwerk für die Tiefenschätzung aus einer einzigen Kamera

Die Schätzung der Tiefeninformation aus einer einzigen RGB-Bildaufnahme, auch monokulare Tiefenschätzung genannt, stellt eine herausfordernde Aufgabe dar, die darauf abzielt, eine entsprechende Tiefenkarte aus einem gegebenen einzelnen RGB-Bild vorherzusagen. In jüngster Zeit wurden tiefgreifende Lernmodelle vorgestellt, die die Tiefenschätzung durch das Lernen der Ausrichtung tiefer Merkmale zwischen dem RGB-Bild- und dem Tiefenbereich ermöglichen. In diesem Artikel präsentieren wir einen neuartigen Ansatz, den wir Structure-Attentioned Memory Network (SAMN) nennen, um die Übertragung von Domänenmerkmalen für die monokulare Tiefenschätzung effektiver zu gestalten, indem wir die gemeinsamen strukturellen Regularitäten (z. B. wiederholte Strukturmuster, ebene Flächen, Symmetrien) bei der Domänenanpassung berücksichtigen. Dazu führen wir ein neues Structure-Oriented Memory (SOM)-Modul ein, das strukturbezogene Informationen zwischen dem RGB-Bild- und dem Tiefenbereich lernt und speichert. Insbesondere entwickeln wir im SOM-Modul eine Memorable Bank of Filters (MBF)-Einheit, die eine Reihe von Filtern lernt, die strukturbezogene Residuallmuster zwischen Bild und Tiefeninformation speichern, sowie eine Attention Guided Controller (AGC)-Einheit, die die Filterauswahl in der MBF anhand von Bildmerkmalsabfragen steuert. Gegeben ein Abfragebildmerkmal kann das trainierte SOM-Modul adaptiv die besten maßgeschneiderten Filter auswählen, um die Merkmalsübertragung zwischen den Domänen mit einer optimalen strukturellen Differenz zwischen Bild und Tiefen zu ermöglichen. Zusammenfassend adressieren wir die Herausforderung der strukturbezogenen Domänenanpassung durch die Einführung eines neuartigen end-to-end mehrskaligen, merkfähigen Netzwerks für die monokulare Tiefenschätzung. Experimente zeigen, dass unser vorgeschlagenes Modell im Vergleich zu bestehenden überwachten Ansätzen für die monokulare Tiefenschätzung auf den anspruchsvollen Benchmarks KITTI und NYU Depth V2 eine überlegene Leistung erzielt.