Chat-Edit-3D: Interaktive 3D-Szenebearbeitung durch Textanweisungen

Neuere Arbeiten zur Bildinhaltsmanipulation auf der Basis von visuell-sprachlichen Vortrainingsmodellen wurden erfolgreich auf textgesteuerte 3D-Szenebearbeitung erweitert. Dennoch zeigen bestehende Verfahren für die 3D-Szenebearbeitung noch bestimmte Nachteile, die ihre weitere interaktive Gestaltung behindern. Diese Verfahren folgen in der Regel festen Eingabemustern, was die Flexibilität der Benutzer bei der Texteingabe einschränkt. Zudem sind ihre Bearbeitungsfähigkeiten durch ein einzelnes oder wenige 2D-Visuelle Modelle begrenzt und erfordern eine komplexe Pipeline-Design, um diese Modelle in 3D-Rekonstruktionsprozesse zu integrieren. Um die genannten Probleme zu lösen, schlagen wir einen dialogbasierten Ansatz für die 3D-Szenebearbeitung vor, den wir CE3D nennen. Dieser Ansatz basiert auf einem großen Sprachmodell, das beliebige textuelle Eingaben von Benutzern zulässt und deren Absichten interpretiert, wodurch die autonome Anforderung entsprechender visueller Expertenmodelle erleichtert wird. Darüber hinaus entwickeln wir ein Schema, das Hash-Atlas verwendet, um 3D-Szenenansichten darzustellen. Dies überträgt die Bearbeitung von 3D-Szenen auf 2D-Atlasbilder. Diese Designentscheidung erreicht eine vollständige Trennung zwischen den Prozessen der 2D-Bearbeitung und der 3D-Rekonstruktion, was es CE3D ermöglicht, eine Vielzahl bestehender 2D- oder 3D-Visuelle Modelle flexibel zu integrieren, ohne komplizierte Fusiondesigns zu benötigen. Experimentelle Ergebnisse zeigen, dass CE3D mehrere Visuelle Modelle effektiv kombiniert, um vielfältige Bearbeitungsvisualeffekte zu erzielen und über starke Szenenverstehensfähigkeiten sowie fähigkeiten zur mehrfachen Dialogrunde verfügt. Der Quellcode ist unter https://sk-fun.fun/CE3D verfügbar.