Erzeugung und Nutzung von wahrscheinlichkeitstheoretischen Tiefenschätzungen aus monokularen Bildern

Abgesehen von der Tiefenschätzung aus einem einzelnen Bild ist der einäugige Hinweis in einer breiteren Palette von Tiefeninferenzanwendungen und -szenarien nützlich – wie zum Beispiel dann, wenn man andere verfügbare Tiefenhinweise zur Verbesserung der Genauigkeit nutzen kann. Derzeit werden verschiedene Anwendungen mit unterschiedlichen Inferenzaufgaben und Kombinationen von Tiefenhinweisen durch verschiedene spezialisierte Netze gelöst – jeweils einzeln für jede Anwendung trainiert. Stattdessen schlagen wir ein vielseitiges, aufgabenunabhängiges einäugiges Modell vor, das eine Wahrscheinlichkeitsverteilung über die Szenentiefe bei Eingabe eines Farbbildes ausgibt, als Stichprobenapproximation der Ausgaben eines patchweisen bedingten VAE (Variational Autoencoder). Wir zeigen, dass diese verteilungsbezogene Ausgabe verwendet werden kann, um eine Vielzahl von Inferenzaufgaben in verschiedenen Szenarien zu ermöglichen, ohne für jede Anwendung erneut trainiert werden zu müssen. In einem vielfältigen Satz von Anwendungen (Tiefenvervollständigung, nutzergeleitete Schätzung usw.) liefert unser gemeinsames Modell Ergebnisse mit hoher Genauigkeit – vergleichbar oder sogar überlegen gegenüber den Methoden des aktuellen Standes der Technik, die auf anwendungsspezifischen Netzen basieren.