Command Palette
Search for a command to run...
MV-RAG: Retrievalgestützte multiview-Diffusionsmethode
Yosef Dayani Omer Benishu Sagie Benaim

Abstract
Text-to-3D-Generierungsansätze haben durch die Nutzung vortrainierter 2D-Diffusionsvorwissen erheblich Fortschritte gemacht und dabei hochwertige sowie 3D-konsistente Ergebnisse erzeugt. Allerdings gelingt es ihnen häufig nicht, außerhalb des Trainingsbereichs (out-of-domain, OOD) liegende oder seltene Konzepte zu generieren, wodurch inkonsistente oder ungenaue Ergebnisse entstehen. Um diesem Problem zu begegnen, stellen wir MV-RAG vor – einen neuartigen Text-zu-3D-Pipeline-Ansatz, der zunächst relevante 2D-Bilder aus einer großen, realweltbasierten 2D-Datenbank abruft und anschließend ein Multiview-Diffusionsmodell auf diesen Bildern bedingt, um konsistente und genaue Multiview-Ausgaben zu synthetisieren. Die Schulung eines solchen abrufbedingten Modells wird durch eine neuartige hybride Strategie ermöglicht, die strukturierte Multiview-Daten mit vielfältigen 2D-Bildsammlungen verbindet. Dabei wird das Modell sowohl auf Multiview-Daten trainiert, wobei erweiterte Bedingungsansichten eingesetzt werden, um die Varianz beim Abruf für die rekonstruktionsbasierte Ansichtsspezifität nachzuahmen, als auch auf Mengen von abgerufenen realweltbasierten 2D-Bildern, wobei ein spezifisches, ausgelassenes Ansichts-Vorhersage-Objektiv verwendet wird: Das Modell prognostiziert die ausgelassene Ansicht aus den anderen Ansichten, um aus 2D-Daten 3D-Konsistenz abzuleiten. Um eine rigorose OOD-Evaluation zu ermöglichen, führen wir eine neue Sammlung herausfordernder OOD-Prompts ein. Experimente gegenüber aktuellen State-of-the-Art-Methoden im Bereich Text-zu-3D, Image-zu-3D sowie Personalisierung zeigen, dass unser Ansatz die 3D-Konsistenz, die Fotorealität sowie die Einhaltung des Texteingabes für OOD- oder seltene Konzepte erheblich verbessert, während die Leistung auf Standardbenchmarks weiterhin konkurrenzfähig bleibt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.