HyperAI

Ausrichtung von Neubildungen von Bildern und Geometrie durch Kreuzmodalen Aufmerksamkeitstransfer

Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
Veröffentlichungsdatum: 6/16/2025
Ausrichtung von Neubildungen von Bildern und Geometrie durch Kreuzmodalen
Aufmerksamkeitstransfer
Abstract

Wir stellen ein diffusionsbasiertes Framework vor, das durch eine Verzerrungs- und Inpainting-Methode ausgerichtete neue Sichtbilder und Geometrien erzeugt. Im Gegensatz zu früheren Methoden, die dichte, posierte Bilder oder poses eingebettete Generatormodelle erfordern, die sich auf in-domain-Sichten beschränken, nutzt unser Ansatz fertige Geometrieprediktoren, um partielle Geometrien von Referenzbildern aus zu prognostizieren, und formuliert die Synthese neuer Sichten als Inpainting-Aufgabe sowohl für Bild als auch für Geometrie. Um eine genaue Ausrichtung zwischen den generierten Bildern und der Geometrie sicherzustellen, schlagen wir eine multimodale Aufmerksamkeitsdestillierung vor, bei der Aufmerksamkeitskarten vom bildbasierten Diffusionszweig während des Trainings und der Inferenz in einen parallelen geometriebasierten Diffusionszweig injiziert werden. Dieser Mehrfachaufgabenansatz erreicht synergistische Effekte und fördert sowohl eine geometrisch robuste Bildsynthese als auch eine präzise Geometrieprognose. Wir führen zudem eine proximitätsgestützte Gitterbedingung ein, um Tiefen- und Normalinformation zu integrieren und fehlerhaft vorhergesagte Geometrien daran zu hindern, den Generierungsprozess zu beeinflussen. Empirisch zeigt unsere Methode hochwertige extrapolative Sichtsynthese sowohl für Bilder als auch für Geometrien über einen breiten Spektrum unbekannter Szenen. Sie liefert unter Interpolationsbedingungen wettbewerbsfähige Rekonstruktionsqualität und erzeugt geometrisch ausgerichtete farbige Punktwolken für umfassende 3D-Vervollständigung. Die Projektseite ist unter https://cvlab-kaist.github.io/MoAI verfügbar.