HyperAIHyperAI
vor 13 Tagen

HR-Depth: Hochauflösende selbstüberwachte monokulare Tiefenschätzung

Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong, Lina Liu, Yong Liu, Xinxin Chen, Yi Yuan
HR-Depth: Hochauflösende selbstüberwachte monokulare Tiefenschätzung
Abstract

Selbstüberwachtes Lernen zeigt großes Potenzial für die Tiefenschätzung aus einer einzigen Kamera, wobei Bildsequenzen als einzige Quelle für die Überwachung dienen. Obwohl versucht wird, hochauflösende Bilder zur Tiefenschätzung zu nutzen, konnte die Genauigkeit der Vorhersagen nicht signifikant verbessert werden. In dieser Arbeit identifizieren wir den zentralen Grund hierfür in der ungenauen Tiefenschätzung in Bereichen mit starken Gradienten, wodurch der Fehler der bilinearen Interpolation mit steigender Auflösung zwar abnimmt, jedoch nicht vollständig verschwindet. Um eine genauere Tiefenschätzung in solchen Regionen zu erreichen, ist es notwendig, hochauflösende Merkmale mit räumlicher und semantischer Information zu gewinnen. Daher präsentieren wir eine verbesserte Tiefennetzarchitektur, HR-Depth, mit zwei effektiven Strategien: (1) Neukonzeption der Skip-Connection in DepthNet zur Gewinnung verbesserter hochauflösender Merkmale und (2) Einführung eines feature-fusionierenden Squeeze-and-Excitation-Moduls (fSE) zur effizienteren Merkmalsfusion. Mit ResNet-18 als Encoder übertrifft HR-Depth alle bisherigen state-of-the-art (SoTA)-Methoden – sowohl bei hoher als auch bei niedriger Auflösung – mit der geringsten Anzahl an Parametern. Zudem basieren frühere SoTA-Methoden auf recht komplexen und tiefen Netzwerken mit einer großen Anzahl an Parametern, was ihre praktische Anwendung einschränkt. Daher entwickeln wir auch ein leichtgewichtiges Netzwerk, das MobileNetV3 als Encoder nutzt. Experimente zeigen, dass das leichte Netzwerk bei hoher Auflösung mit nur 20 % der Parameter mit vielen größeren Modellen wie Monodepth2 konkurrieren kann. Alle Quellcodes und Modelle werden unter https://github.com/shawLyu/HR-Depth verfügbar sein.