Command Palette
Search for a command to run...
Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

Résumé
La génération de vidéos longues est fondamentalement un problème de mémoire à long terme : les modèles doivent conserver et retrouver des événements pertinents sur de longues durées sans que la représentation ne s’effondre ni ne dérive. Toutefois, l’extension des transformateurs à diffusion à la génération de vidéos à long contexte est intrinsèquement limitée par le coût quadratique de l’attention auto-attentive, qui rend la mémoire et le calcul intraitables et difficilement optimisables pour des séquences longues. Nous reformulons la génération de vidéos à long contexte comme une tâche interne de recherche d’information, et proposons un module simple et apprenable de routage d’attention creuse, appelé Mélange de Contextes (Mixture of Contexts, MoC), agissant comme un moteur efficace de récupération de mémoire à long terme. Dans MoC, chaque requête sélectionne dynamiquement quelques segments informatifs ainsi que des repères obligatoires (légende, fenêtres locales) pour lesquels elle calcule l’attention, grâce à un routage causale empêchant les boucles de fermeture. En élargissant progressivement les données et en rendant progressivement plus creux le routage, le modèle alloue ses ressources de calcul aux éléments historiques les plus pertinents, préservant ainsi les identités, les actions et les scènes sur des durées pouvant atteindre plusieurs minutes. L’efficacité découle naturellement de la stratégie de recherche (mise à l’échelle quasi linéaire), ce qui permet une entraînement et une synthèse pratiques, et fait émerger, à grande échelle, une mémoire cohérente et une consistance sur des durées de plusieurs minutes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.