il y a 2 mois

Mélange de contextes pour la génération de vidéos longues

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

Résumé

La génération de vidéos longues est fondamentalement un problème de mémoire à long terme : les modèles doivent conserver et retrouver des événements pertinents sur de longues durées sans que la représentation ne s’effondre ni ne dérive. Toutefois, l’extension des transformateurs à diffusion à la génération de vidéos à long contexte est intrinsèquement limitée par le coût quadratique de l’attention auto-attentive, qui rend la mémoire et le calcul intraitables et difficilement optimisables pour des séquences longues. Nous reformulons la génération de vidéos à long contexte comme une tâche interne de recherche d’information, et proposons un module simple et apprenable de routage d’attention creuse, appelé Mélange de Contextes (Mixture of Contexts, MoC), agissant comme un moteur efficace de récupération de mémoire à long terme. Dans MoC, chaque requête sélectionne dynamiquement quelques segments informatifs ainsi que des repères obligatoires (légende, fenêtres locales) pour lesquels elle calcule l’attention, grâce à un routage causale empêchant les boucles de fermeture. En élargissant progressivement les données et en rendant progressivement plus creux le routage, le modèle alloue ses ressources de calcul aux éléments historiques les plus pertinents, préservant ainsi les identités, les actions et les scènes sur des durées pouvant atteindre plusieurs minutes. L’efficacité découle naturellement de la stratégie de recherche (mise à l’échelle quasi linéaire), ce qui permet une entraînement et une synthèse pratiques, et fait émerger, à grande échelle, une mémoire cohérente et une consistance sur des durées de plusieurs minutes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Mélange de contextes pour la génération de vidéos longues

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

Résumé

Construire l'IA avec l'IA

Hyper Newsletters