HyperAIHyperAI

Command Palette

Search for a command to run...

FunCineForge: Ein einheitliches Dataset-Toolkit und Modell für Zero-Shot-Filmsynchronisation in diversen Filmszenen

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Zusammenfassung

Das Synchronisieren von Filmen besteht darin, aus Drehbüchern, die durch Videoszenen konditioniert sind, Sprache zu synthetisieren. Dabei sind eine präzise Synchronisation der Lippenbewegungen (Lip Sync), eine treue Übertragung der Stimmlage (Timbre Transfer) sowie eine angemessene Modellierung der Charakteridentität und der Emotionen erforderlich. Bestehende Methoden stoßen jedoch auf zwei wesentliche Einschränkungen: (1) Hochwertige multimodale Datensätze für die Synchronisation sind in ihrem Umfang begrenzt, weisen hohe Word Error Rates auf, enthalten nur spärliche Annotationen, sind auf kostspielige manuelle Kennzeichnung angewiesen und beschränken sich auf Monologszenen; all dies behindert ein effektives Training von Modellen. (2) Vorhandene Synchronisationsmodelle stützen sich ausschließlich auf die Lippenregion, um die audiovisuelle Ausrichtung zu erlernen, was ihre Anwendbarkeit auf komplexe Szenen aus Live-Action-Filmen einschränkt und zu suboptimalen Ergebnissen bei Lip Sync, Sprachqualität und emotionaler Ausdruckskraft führt. Um diese Probleme zu adressieren, stellen wir FunCineForge vor, das eine End-to-End-Produktionspipeline für groß angelegte Synchronisationsdatensätze sowie ein auf MLLM basierendes Synchronisationsmodell für diverse Filmszenen umfasst. Mithilfe der Pipeline konstruieren wir den ersten chinesischen Datensatz für Fernseh-Synchronisation mit umfangreichen Annotationen und belegen die hohe Qualität dieser Daten. Experimente in Monolog-, Erzähl-, Dialog- und Mehrsprecher-Szenen zeigen, dass unser Synchronisationsmodell SOTA-Methoden in Bezug auf Audioqualität, Lip Sync, Timbre Transfer und Instruction Following konsistent übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp