HyperAIHyperAI

Command Palette

Search for a command to run...

Schätzung der Bildtiefe im Comic-Bereich

Deblina Bhattacharjee Martin Everaert Mathieu Salzmann Sabine Süsstrunk

Zusammenfassung

Die Schätzung der Tiefen von Comic-Bildern ist herausfordernd, da solche Bilder a) monokular sind; b) keine ground-truth-Tiefenannotierungen besitzen; c) sich in unterschiedlichen künstlerischen Stilen unterscheiden; d) spärlich und verrauscht sind. Daher verwenden wir eine kommerziell erhältliche, unsupervisierte Methode zur Bild-zu-Bild-Transformation, um Comic-Bilder in natürliche Bilder zu übersetzen, und nutzen anschließend einen auf Aufmerksamkeit gestützten monokularen Tiefenschätzer, um deren Tiefe vorherzusagen. Auf diese Weise können wir die vorhandenen Tiefenannotierungen natürlicher Bilder nutzen, um den Tiefenschätzer zu trainieren. Zudem lernt unser Modell, zwischen Text und Bild in den Comic-Feldern zu unterscheiden, um textbasierte Artefakte in den Tiefenschätzungen zu reduzieren. Unser Ansatz übertrifft konsistent die bestehenden State-of-the-Art-Methoden in allen Metriken sowohl auf den DCM- als auch auf den eBDtheque-Bildern. Schließlich stellen wir eine neue Datensammlung vor, um die Tiefenschätzung auf Comics zu evaluieren. Die Projekt-Website ist unter https://github.com/IVRL/ComicsDepth zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp