HyperAIHyperAI

Command Palette

Search for a command to run...

Struktur-angemessenes Gedächtnisnetzwerk für die Tiefenschätzung aus einer einzigen Kamera

Jing Zhu Yunxiao Shi Mengwei Ren Yi Fang Kuo-Chin Lien Junli Gu

Zusammenfassung

Die Schätzung der Tiefeninformation aus einer einzigen RGB-Bildaufnahme, auch monokulare Tiefenschätzung genannt, stellt eine herausfordernde Aufgabe dar, die darauf abzielt, eine entsprechende Tiefenkarte aus einem gegebenen einzelnen RGB-Bild vorherzusagen. In jüngster Zeit wurden tiefgreifende Lernmodelle vorgestellt, die die Tiefenschätzung durch das Lernen der Ausrichtung tiefer Merkmale zwischen dem RGB-Bild- und dem Tiefenbereich ermöglichen. In diesem Artikel präsentieren wir einen neuartigen Ansatz, den wir Structure-Attentioned Memory Network (SAMN) nennen, um die Übertragung von Domänenmerkmalen für die monokulare Tiefenschätzung effektiver zu gestalten, indem wir die gemeinsamen strukturellen Regularitäten (z. B. wiederholte Strukturmuster, ebene Flächen, Symmetrien) bei der Domänenanpassung berücksichtigen. Dazu führen wir ein neues Structure-Oriented Memory (SOM)-Modul ein, das strukturbezogene Informationen zwischen dem RGB-Bild- und dem Tiefenbereich lernt und speichert. Insbesondere entwickeln wir im SOM-Modul eine Memorable Bank of Filters (MBF)-Einheit, die eine Reihe von Filtern lernt, die strukturbezogene Residuallmuster zwischen Bild und Tiefeninformation speichern, sowie eine Attention Guided Controller (AGC)-Einheit, die die Filterauswahl in der MBF anhand von Bildmerkmalsabfragen steuert. Gegeben ein Abfragebildmerkmal kann das trainierte SOM-Modul adaptiv die besten maßgeschneiderten Filter auswählen, um die Merkmalsübertragung zwischen den Domänen mit einer optimalen strukturellen Differenz zwischen Bild und Tiefen zu ermöglichen. Zusammenfassend adressieren wir die Herausforderung der strukturbezogenen Domänenanpassung durch die Einführung eines neuartigen end-to-end mehrskaligen, merkfähigen Netzwerks für die monokulare Tiefenschätzung. Experimente zeigen, dass unser vorgeschlagenes Modell im Vergleich zu bestehenden überwachten Ansätzen für die monokulare Tiefenschätzung auf den anspruchsvollen Benchmarks KITTI und NYU Depth V2 eine überlegene Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp