HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

Abstract

Neuere Fortschritte bei der Video-Einbettung basierend auf Diffusionsmodellen sind beeindruckend. Allerdings beruhen bestehende Methoden auf komplexen Steuersignalen und leiden unter Problemen hinsichtlich der Subjekt-Konsistenz, was ihre praktische Anwendbarkeit einschränkt. In diesem Paper konzentrieren wir uns auf die Aufgabe der maskenfreien Video-Einbettung und zielen darauf ab, drei zentrale Herausforderungen zu bewältigen: Datenknappheit, Gleichgewicht zwischen Subjekt und Szene sowie harmonische Einbettung. Um die Datenknappheit zu adressieren, schlagen wir einen neuen Datenpipeline-Ansatz, InsertPipe, vor, der automatisch vielfältige Cross-Pair-Daten generiert. Aufbauend auf dieser Datenpipeline entwickeln wir OmniInsert, einen neuartigen einheitlichen Rahmen für die maskenfreie Video-Einbettung sowohl aus einzelnen als auch aus mehreren Referenzsubjekten. Insbesondere zur Aufrechterhaltung des Gleichgewichts zwischen Subjekt und Szene führen wir eine einfache, aber effektive Condition-Specific Feature Injection-Mechanismus ein, der mehrfache Quellbedingungen klar unterscheidet, und stellen eine neue Progressive Training-Strategie vor, die es dem Modell ermöglicht, das Feature-Injektions-Gleichgewicht zwischen Subjekten und Quellvideo zu balancieren. Gleichzeitig entwerfen wir eine Subject-Focused Loss-Funktion, um die detaillierte Erscheinung der Subjekte zu verbessern. Um die harmonische Einbettung weiter zu verfeinern, schlagen wir eine Insertive Preference Optimization-Methode vor, die das Modell durch Simulation menschlicher Präferenzen optimiert, und integrieren während der Referenz einen kontextbewussten Rephraser-Modul, um das Subjekt nahtlos in die ursprüngliche Szene einzufügen. Um den Mangel an einem etablierten Benchmark für dieses Forschungsfeld zu beheben, führen wir InsertBench ein – einen umfassenden Benchmark mit vielfältigen Szenen und sorgfältig ausgewählten Subjekten. Evaluierungen auf InsertBench zeigen, dass OmniInsert state-of-the-art kommerzielle, geschlossene Lösungen übertrifft. Der Quellcode wird veröffentlicht werden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle | Forschungsarbeiten | HyperAI