HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

MV-RAG: Retrievalgestützte multiview-Diffusionsmethode

Yosef Dayani Omer Benishu Sagie Benaim

MV-RAG: Retrievalgestützte multiview-Diffusionsmethode

Abstract

Text-to-3D-Generierungsansätze haben durch die Nutzung vortrainierter 2D-Diffusionsvorwissen erheblich Fortschritte gemacht und dabei hochwertige sowie 3D-konsistente Ergebnisse erzeugt. Allerdings gelingt es ihnen häufig nicht, außerhalb des Trainingsbereichs (out-of-domain, OOD) liegende oder seltene Konzepte zu generieren, wodurch inkonsistente oder ungenaue Ergebnisse entstehen. Um diesem Problem zu begegnen, stellen wir MV-RAG vor – einen neuartigen Text-zu-3D-Pipeline-Ansatz, der zunächst relevante 2D-Bilder aus einer großen, realweltbasierten 2D-Datenbank abruft und anschließend ein Multiview-Diffusionsmodell auf diesen Bildern bedingt, um konsistente und genaue Multiview-Ausgaben zu synthetisieren. Die Schulung eines solchen abrufbedingten Modells wird durch eine neuartige hybride Strategie ermöglicht, die strukturierte Multiview-Daten mit vielfältigen 2D-Bildsammlungen verbindet. Dabei wird das Modell sowohl auf Multiview-Daten trainiert, wobei erweiterte Bedingungsansichten eingesetzt werden, um die Varianz beim Abruf für die rekonstruktionsbasierte Ansichtsspezifität nachzuahmen, als auch auf Mengen von abgerufenen realweltbasierten 2D-Bildern, wobei ein spezifisches, ausgelassenes Ansichts-Vorhersage-Objektiv verwendet wird: Das Modell prognostiziert die ausgelassene Ansicht aus den anderen Ansichten, um aus 2D-Daten 3D-Konsistenz abzuleiten. Um eine rigorose OOD-Evaluation zu ermöglichen, führen wir eine neue Sammlung herausfordernder OOD-Prompts ein. Experimente gegenüber aktuellen State-of-the-Art-Methoden im Bereich Text-zu-3D, Image-zu-3D sowie Personalisierung zeigen, dass unser Ansatz die 3D-Konsistenz, die Fotorealität sowie die Einhaltung des Texteingabes für OOD- oder seltene Konzepte erheblich verbessert, während die Leistung auf Standardbenchmarks weiterhin konkurrenzfähig bleibt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp