Command Palette
Search for a command to run...
OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

Abstract
Neuere Fortschritte bei der Video-Einbettung basierend auf Diffusionsmodellen sind beeindruckend. Allerdings beruhen bestehende Methoden auf komplexen Steuersignalen und leiden unter Problemen hinsichtlich der Subjekt-Konsistenz, was ihre praktische Anwendbarkeit einschränkt. In diesem Paper konzentrieren wir uns auf die Aufgabe der maskenfreien Video-Einbettung und zielen darauf ab, drei zentrale Herausforderungen zu bewältigen: Datenknappheit, Gleichgewicht zwischen Subjekt und Szene sowie harmonische Einbettung. Um die Datenknappheit zu adressieren, schlagen wir einen neuen Datenpipeline-Ansatz, InsertPipe, vor, der automatisch vielfältige Cross-Pair-Daten generiert. Aufbauend auf dieser Datenpipeline entwickeln wir OmniInsert, einen neuartigen einheitlichen Rahmen für die maskenfreie Video-Einbettung sowohl aus einzelnen als auch aus mehreren Referenzsubjekten. Insbesondere zur Aufrechterhaltung des Gleichgewichts zwischen Subjekt und Szene führen wir eine einfache, aber effektive Condition-Specific Feature Injection-Mechanismus ein, der mehrfache Quellbedingungen klar unterscheidet, und stellen eine neue Progressive Training-Strategie vor, die es dem Modell ermöglicht, das Feature-Injektions-Gleichgewicht zwischen Subjekten und Quellvideo zu balancieren. Gleichzeitig entwerfen wir eine Subject-Focused Loss-Funktion, um die detaillierte Erscheinung der Subjekte zu verbessern. Um die harmonische Einbettung weiter zu verfeinern, schlagen wir eine Insertive Preference Optimization-Methode vor, die das Modell durch Simulation menschlicher Präferenzen optimiert, und integrieren während der Referenz einen kontextbewussten Rephraser-Modul, um das Subjekt nahtlos in die ursprüngliche Szene einzufügen. Um den Mangel an einem etablierten Benchmark für dieses Forschungsfeld zu beheben, führen wir InsertBench ein – einen umfassenden Benchmark mit vielfältigen Szenen und sorgfältig ausgewählten Subjekten. Evaluierungen auf InsertBench zeigen, dass OmniInsert state-of-the-art kommerzielle, geschlossene Lösungen übertrifft. Der Quellcode wird veröffentlicht werden.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.