MiniNet: Ein extrem leichtgewichtiges faltendes neuronales Netzwerk für die Echtzeit-unsupervised monokulare Tiefenschätzung

Die Vorhersage der Tiefe aus einer einzigen Bildaufnahme ist ein attraktives Forschungsthema, da sie Maschinen eine zusätzliche Dimension an Informationen liefert, um die Wahrnehmung der Welt zu verbessern. In jüngster Zeit ist die tiefen Lernmethoden als effektiver Ansatz für die monokulare Tiefeabschätzung hervorgetreten. Da die Erzeugung beschrifteter Daten kostspielig ist, hat sich ein Trend hin zu unlabeled Learning entwickelt, um monokulare Tiefe zu schätzen. Allerdings erfordern die meisten unlabeled Learning-Methoden, die eine hohe Genauigkeit bei der Tiefeabschätzung erreichen, tiefgreifende Netzwerkarchitekturen, die auf eingebetteten Geräten mit begrenztem Speicher- und Arbeitsspeicherplatz zu schwer und komplex sind, um effizient ausgeführt zu werden. Um dieses Problem zu lösen, schlagen wir ein neues leistungsstarkes Netzwerk mit einem rekurrenten Modul vor, das die Fähigkeiten eines tiefen Netzwerks ermöglicht, gleichzeitig aber eine äußerst geringe Größe beibehält, um eine Echtzeit-Hochleistung-unsupervised monokulare Tiefeabschätzung aus Videosequenzen zu ermöglichen. Zusätzlich wird ein neuartiger effizienter Upsampling-Block vorgestellt, der Merkmale aus der zugehörigen Encoder-Schicht fusioniert und die räumliche Auflösung der Merkmale mit einer minimalen Anzahl an Modellparametern wiederherstellt. Die Wirksamkeit unseres Ansatzes wird durch umfangreiche Experimente auf dem KITTI-Datensatz validiert. Unser neues Modell läuft mit einer Geschwindigkeit von etwa 110 Bildern pro Sekunde (fps) auf einer einzelnen GPU, 37 fps auf einem einzelnen CPU und 2 fps auf einem Raspberry Pi 3. Zudem erreicht es eine höhere Tiefegenauigkeit mit nahezu 33-mal weniger Modellparametern im Vergleich zu aktuellen State-of-the-Art-Modellen. So weit uns bekannt ist, handelt es sich bei dieser Arbeit um das erste äußerst leichte neuronale Netzwerk, das auf monokularen Videosequenzen für eine Echtzeit-unsupervised monokulare Tiefeabschätzung trainiert wurde, was die Implementierung von tiefen Lernmethoden zur Echtzeit-unsupervised monokularen Tiefeabschätzung auf kostengünstigen eingebetteten Geräten ermöglicht.