Command Palette
Search for a command to run...
Formation par post-entraînement adversaire autoregressif pour la génération de vidéos interactives en temps réel
Formation par post-entraînement adversaire autoregressif pour la génération de vidéos interactives en temps réel
Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang
Résumé
Les modèles de génération vidéo à grande échelle actuels sont très exigeants en termes de calcul, ce qui empêche leur adoption dans les applications en temps réel et interactives. Dans cette étude, nous proposons une méthode d'entraînement postérieur auto-régressif et adversarial (AAPT) pour transformer un modèle de diffusion vidéo pré-entraîné en générateur vidéo en temps réel et interactif. Notre modèle génère de manière auto-régressive une trame latente à la fois en utilisant une seule évaluation de fonction neuronale (1NFE). Il peut diffuser le résultat à l'utilisateur en temps réel et recevoir des réponses interactives comme contrôles pour générer la trame latente suivante. Contrairement aux approches existantes, notre méthode explore l'entraînement adversarial comme paradigme efficace pour la génération auto-régressive. Cela nous permet non seulement de concevoir une architecture plus efficace pour la génération en un pas tout en exploitant pleinement le cache KV, mais aussi d'entraîner le modèle selon une méthode par forçage étudiant qui s'est avérée efficace pour réduire l'accumulation d'erreurs lors de la génération de vidéos longues. Nos expériences montrent que notre modèle de 8 milliards de paramètres atteint une génération vidéo en streaming en temps réel à 24 images par seconde (ips) et une résolution de 736x416 sur une seule carte H100, ou 1280x720 sur 8 cartes H100, jusqu'à une minute (1440 trames). Pour plus d'informations, visitez notre site web de recherche à l'adresse https://seaweed-apt.com/2