HyperAIHyperAI
vor 10 Tagen

Ersatzidentität: Eine leichtgewichtige und plug-and-play-Identitätssteuerung für die Videogenerierung

Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
Ersatzidentität: Eine leichtgewichtige und plug-and-play-Identitätssteuerung für die Videogenerierung
Abstract

Die Erzeugung hochfidelitätsreicher menschlicher Videos, die einem vom Nutzer spezifizierten Identitätsmerkmal entsprechen, ist ein zentrales, jedoch herausforderndes Anliegen im Bereich der generativen KI. Bestehende Methoden basieren oft auf einer übermäßigen Anzahl an Trainingsparametern und sind mit anderen AIGC-Tools nicht kompatibel. In diesem Paper stellen wir Stand-In vor – einen leichten und plug-and-play-fähigen Rahmen für die Erhaltung der Identität bei der Videoerzeugung. Konkret integrieren wir eine bedingte Bildzweigkomponente in ein vortrainiertes Videoerzeugungsmodell. Die Identitätssteuerung wird mittels eingeschränkter Selbst-Attention mit bedingter Positionsabbildung realisiert und kann bereits mit nur 2000 Trainingspaaren schnell gelernt werden. Trotz der Einfügung und des Trainings lediglich von etwa 1 % zusätzlichen Parametern erzielt unser Ansatz herausragende Ergebnisse hinsichtlich Videoqualität und Identitätserhaltung und übertrifft dabei andere Methoden, die sämtliche Parameter trainieren. Darüber hinaus lässt sich unser Rahmen nahtlos für weitere Aufgaben einsetzen, beispielsweise für themenbasierte Videoerzeugung, posebasierte Videoerzeugung, Stilisierung sowie Gesichtsaustausch.