UC-Net: Unsicherheitsspezifische RGB-D-Aufmerksamkeitsdetektion mittels bedingter variationaler Autoencoder

In diesem Artikel stellen wir den ersten Ansatz (UCNet) vor, der Unsicherheit zur RGB-D-Salienzdetektion nutzt, indem er aus dem Datenetikettierungsprozess lernt. Bestehende Methoden zur RGB-D-Salienzdetektion behandeln die Aufgabe der Salienzdetektion als ein Punktschätzungproblem und erzeugen mittels eines deterministischen Lernprozesses eine einzige Salienzkarte. Inspiriert durch den Prozess der menschlichen Salienzetikettierung schlagen wir einen probabilistischen RGB-D-Salienzdetektionsansatz mittels bedingter variationaler Autoencoder vor, um die Unsicherheit menschlicher Annotationen zu modellieren und für jedes Eingabebild durch Stichproben im latente Raum mehrere Salienzkarten zu generieren. Mittels des vorgeschlagenen Salienz-Konsensverfahrens können wir eine präzise Salienzkarte auf Basis dieser mehrfachen Vorhersagen erzeugen. Quantitative und qualitative Evaluierungen an sechs anspruchsvollen Benchmark-Datensätzen gegenüber 18 konkurrierenden Algorithmen belegen die Wirksamkeit unseres Ansatzes, die Verteilung von Salienzkarten zu lernen, und führen zu einem neuen State-of-the-Art in der RGB-D-Salienzdetektion.