HyperAIHyperAI

Command Palette

Search for a command to run...

Ausrichtung von Neubildungen von Bildern und Geometrie durch Kreuzmodalen Aufmerksamkeitstransfer

Min-Seop Kwak Junho Kim Sangdoo Yun Dongyoon Han Taekyoung Kim Seungryong Kim Jin-Hwa Kim

Zusammenfassung

Wir stellen ein diffusionsbasiertes Framework vor, das durch eine Verzerrungs- und Inpainting-Methode ausgerichtete neue Sichtbilder und Geometrien erzeugt. Im Gegensatz zu früheren Methoden, die dichte, posierte Bilder oder poses eingebettete Generatormodelle erfordern, die sich auf in-domain-Sichten beschränken, nutzt unser Ansatz fertige Geometrieprediktoren, um partielle Geometrien von Referenzbildern aus zu prognostizieren, und formuliert die Synthese neuer Sichten als Inpainting-Aufgabe sowohl für Bild als auch für Geometrie. Um eine genaue Ausrichtung zwischen den generierten Bildern und der Geometrie sicherzustellen, schlagen wir eine multimodale Aufmerksamkeitsdestillierung vor, bei der Aufmerksamkeitskarten vom bildbasierten Diffusionszweig während des Trainings und der Inferenz in einen parallelen geometriebasierten Diffusionszweig injiziert werden. Dieser Mehrfachaufgabenansatz erreicht synergistische Effekte und fördert sowohl eine geometrisch robuste Bildsynthese als auch eine präzise Geometrieprognose. Wir führen zudem eine proximitätsgestützte Gitterbedingung ein, um Tiefen- und Normalinformation zu integrieren und fehlerhaft vorhergesagte Geometrien daran zu hindern, den Generierungsprozess zu beeinflussen. Empirisch zeigt unsere Methode hochwertige extrapolative Sichtsynthese sowohl für Bilder als auch für Geometrien über einen breiten Spektrum unbekannter Szenen. Sie liefert unter Interpolationsbedingungen wettbewerbsfähige Rekonstruktionsqualität und erzeugt geometrisch ausgerichtete farbige Punktwolken für umfassende 3D-Vervollständigung. Die Projektseite ist unter https://cvlab-kaist.github.io/MoAI verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ausrichtung von Neubildungen von Bildern und Geometrie durch Kreuzmodalen Aufmerksamkeitstransfer | Paper | HyperAI