Neubewertung der Tiefenschätzung für Multi-View-Stereo: Eine einheitliche Darstellung

Die Tiefenschätzung wird in bestehenden lernbasierten Mehransichts-Stereomethoden als Regressions- oder Klassifizierungsaufgabe behandelt. Obwohl diese beiden Darstellungsformen in letzter Zeit ihre hervorragende Leistungsfähigkeit unter Beweis gestellt haben, weisen sie dennoch deutliche Nachteile auf: Regressionsmethoden neigen aufgrund des indirekten Lernkostenvolumens zur Überanpassung, während Klassifizierungsmethoden aufgrund ihrer diskreten Vorhersage nicht direkt präzise Tiefenwerte ermitteln können. In diesem Artikel schlagen wir eine neue Darstellung vor, die als „Unification“ bezeichnet wird, um die Vorteile von Regressions- und Klassifizierungsmethoden zu vereinen. Sie kann das Kostenvolumen wie Klassifizierungsmethoden direkt beeinflussen, ermöglicht aber gleichzeitig eine subpixelgenaue Tiefenschätzung wie Regressionsmethoden. Um das volle Potenzial der Unification auszuschöpfen, entwerfen wir eine neue Verlustfunktion namens Unified Focal Loss, die aufgrund ihrer gleichmäßigeren und sinnvolleren Verteilung besser gegen das Problem der ungleichmäßigen Stichprobenauswahl resistent ist. Durch die Kombination dieser beiden modular unabhängigen Komponenten präsentieren wir einen grob-zu-fein-Framework, den wir UniMVSNet nennen. Die Ergebnisse, die sich an erster Stelle sowohl auf den DTU- als auch auf den Tanks and Temples-Benchmarks befinden, belegen, dass unser Modell nicht nur die beste Leistung erzielt, sondern auch die bestmögliche Generalisierungsfähigkeit besitzt.