Tinker: Die Gabe der Diffusion für 3D – Multi-View-konsistente Bearbeitung aus spärlichen Eingaben ohne optimierungsspezifische Anpassung pro Szene

Wir stellen Tinker vor, einen vielseitigen Rahmen für hochpräzise 3D-Editierungen, der sowohl im One-Shot- als auch im Few-Shot-Modus ohne jegliche scenspezifische Feinabstimmung funktioniert. Im Gegensatz zu früheren Ansätzen, die umfangreiche scenspezifische Optimierungen erfordern, um die Konsistenz über mehrere Ansichten sicherzustellen oder Dutzende konsistenter bearbeiteter Ansichten zu erzeugen, ermöglicht Tinker robuste, mehransichtskonsistente Bearbeitungen bereits anhand von lediglich einer oder zwei Bildern. Diese Fähigkeit beruht auf der Neuausrichtung vortrainierter Diffusionsmodelle, die deren latente 3D-Wahrnehmung freisetzen. Um die Forschung in diesem Bereich voranzutreiben, haben wir das erste großskalige, mehransichtsbasierte Editierdatenset und den zugehörigen Datenpipeline erstellt, das eine Vielzahl an Szenen und Stilen abdeckt. Aufbauend auf diesem Datensatz entwickeln wir einen Rahmen, der mehransichtskonsistente bearbeitete Ansichten ohne scenspezifisches Training generieren kann und zwei neuartige Komponenten umfasst: (1) Referenzgesteuertes Mehransichts-Editor: Ermöglicht präzise, referenzbasierte Bearbeitungen, die über alle Blickrichtungen hinweg konsistent bleiben. (2) Any-View-to-Video-Synthesizer: Nutzt räumlich-zeitliche Vorwissen aus Videodiffusionsmodellen, um hochwertige Szenenkomplettierungen und die Generierung neuer Ansichten auch bei spärlichen Eingaben durchzuführen. In umfangreichen Experimenten reduziert Tinker erheblich die Hürden für generalisierbare 3D-Inhaltschaffung und erreicht state-of-the-art-Ergebnisse bei Aufgaben der Bearbeitung, der Generierung neuer Ansichten und der Verbesserung der Darstellung. Wir sind überzeugt, dass Tinker einen entscheidenden Schritt hin zu wirklich skalierbaren, zero-shot-3D-Editierungen darstellt.Projekt-Webseite: https://aim-uofa.github.io/Tinker