Command Palette
Search for a command to run...
Lynx: Hin zum hochauflösenden personalisierten Videogenerieren
Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

Abstract
Wir stellen Lynx vor, ein Modell mit hoher Fidelität zur personalisierten Videogenerierung auf Basis eines einzigen Eingabebildes. Aufbauend auf einem Open-Source-Grundmodell aus Diffusion Transformer (DiT) integriert Lynx zwei leichte Adapter, um eine präzise Identitätsfesthaltung zu gewährleisten. Der ID-Adapter verwendet einen Perceiver Resampler, um aus ArcFace-abgeleiteten Gesichtseingaben kompakte Identitätstokens zur Bedingungssteuerung zu generieren, während der Ref-Adapter dichte VAE-Features aus einem fixierten Referenzpfad nutzt, um feinste Details über alle Transformer-Schichten mittels Cross-Attention einzubringen. Diese Module ermöglichen gemeinsam eine robuste Identitätsbewahrung gleichzeitig mit hoher zeitlicher Kohärenz und visueller Realität. In einer evaluierten Benchmark mit 40 Probanden und 20 unvoreingenommenen Prompten – was insgesamt 800 Testfälle ergab – zeigte Lynx eine überlegene Gesichtsähnlichkeit, konkurrenzfähige Prompt-Unterstützung sowie herausragende Videoqualität und trägt somit entscheidend zur Weiterentwicklung der personalisierten Videogenerierung bei.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.