HyperAIHyperAI
vor 13 Tagen

Schätzung der Bildtiefe im Comic-Bereich

Deblina Bhattacharjee, Martin Everaert, Mathieu Salzmann, Sabine Süsstrunk
Schätzung der Bildtiefe im Comic-Bereich
Abstract

Die Schätzung der Tiefen von Comic-Bildern ist herausfordernd, da solche Bilder a) monokular sind; b) keine ground-truth-Tiefenannotierungen besitzen; c) sich in unterschiedlichen künstlerischen Stilen unterscheiden; d) spärlich und verrauscht sind. Daher verwenden wir eine kommerziell erhältliche, unsupervisierte Methode zur Bild-zu-Bild-Transformation, um Comic-Bilder in natürliche Bilder zu übersetzen, und nutzen anschließend einen auf Aufmerksamkeit gestützten monokularen Tiefenschätzer, um deren Tiefe vorherzusagen. Auf diese Weise können wir die vorhandenen Tiefenannotierungen natürlicher Bilder nutzen, um den Tiefenschätzer zu trainieren. Zudem lernt unser Modell, zwischen Text und Bild in den Comic-Feldern zu unterscheiden, um textbasierte Artefakte in den Tiefenschätzungen zu reduzieren. Unser Ansatz übertrifft konsistent die bestehenden State-of-the-Art-Methoden in allen Metriken sowohl auf den DCM- als auch auf den eBDtheque-Bildern. Schließlich stellen wir eine neue Datensammlung vor, um die Tiefenschätzung auf Comics zu evaluieren. Die Projekt-Website ist unter https://github.com/IVRL/ComicsDepth zugänglich.

Schätzung der Bildtiefe im Comic-Bereich | Neueste Forschungsarbeiten | HyperAI