HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von 3D-Fotografie-Videos durch selbstüberwachte Diffusion auf einzelnen Bildern

Zusammenfassung

Die 3D-Fotografie verwandelt ein statisches Bild in ein Video mit ansprechenden 3D-Visualeffekten. Bestehende Ansätze führen in der Regel zunächst eine monokulare Tiefenschätzung durch, rendern dann das Eingabebild zu nachfolgenden Bildern mit verschiedenen Betrachtungswinkeln und verwenden abschließend ein Inpainting-Modell, um die fehlenden oder verdeckten Bereiche auszufüllen. Das Inpainting-Modell spielt eine entscheidende Rolle für die Renderqualität, wird aber normalerweise mit außerdomänen Daten trainiert. Um den Abstand zwischen Training und Inferenz zu verringern, schlagen wir ein neues selbstüberwachtes Diffusionsmodell als Inpainting-Modul vor. Bei einem einzelnen Eingabebild konstruieren wir automatisch ein Trainingspaar bestehend aus dem maskierten verdeckten Bild und dem Originalbild durch zufälliges Zyklusrendering. Die erstellten Trainingsbeispiele sind eng an die Testinstanzen angepasst, ohne dass eine Datenauszeichnung erforderlich ist. Um die maskierten Bilder optimal zu nutzen, haben wir einen Maskierten Erweiterten Block (Masked Enhanced Block, MEB) entwickelt, der einfach in das UNet integriert werden kann und die semantischen Bedingungen verbessert. Für Animationen in der realen Welt stellen wir eine neue Aufgabe vor: Out-Animation, welche den räumlichen und zeitlichen Bereich der Eingabeobjekte erweitert. Ausführliche Experimente auf realen Datensätzen zeigen, dass unsere Methode vergleichbare Ergebnisse mit den existierenden state-of-the-art Methoden erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von 3D-Fotografie-Videos durch selbstüberwachte Diffusion auf einzelnen Bildern | Paper | HyperAI