TransDSSL: Transformer-basierte Tiefenschätzung mittels selbstüberwachtem Lernen
In letzter Zeit wurden Transformer aufgrund ihrer Fähigkeit, langreichweitige räumliche Abhängigkeiten in Bildern effektiv zu erfassen, weit verbreitet für verschiedene Aufgaben im Bereich des maschinellen Sehens eingesetzt und zeigen vielversprechende Ergebnisse. Dennoch existieren bisher nur wenige Studien, die die Anwendung von Transformers in der selbstüberwachten Tiefenschätzung untersuchen. Beim Ersetzen der CNN-Architektur durch Transformer im Rahmen selbstüberwachten Lernens der Tiefenschätzung treten mehrere Probleme auf, darunter eine instabile mehrskalige photometrische Verlustfunktion bei Verwendung von Transformers sowie eine unzureichende Fähigkeit, lokale Details zu erfassen. In diesem Artikel stellen wir ein auf Aufmerksamkeit basierendes Dekodiermodul, das sogenannte Pixel-Wise Skip Attention (PWSA), vor, das dazu beiträgt, feine Details in Merkmalskarten zu verbessern, während gleichzeitig der globale Kontext, der durch Transformer bereitgestellt wird, erhalten bleibt. Darüber hinaus schlagen wir die Nutzung einer Selbst-Distillation-Verlustfunktion in Kombination mit einer ein- skaligen photometrischen Verlustfunktion vor, um die Instabilität des Transformer-Trainings durch korrekte Trainingssignale zu mildern. Wir zeigen, dass das vorgeschlagene Modell präzise Vorhersagen für große Objekte und dünne Strukturen erzielt, die sowohl globale Kontextinformationen als auch lokale Details erfordern. Unser Modell erreicht auf den Benchmarks KITTI und DDAD eine state-of-the-art Leistung unter den selbstüberwachten monokularen Tiefenschätzmethoden.