Date

il y a 6 mois

Taille

128.76 MB

Balises

Texte Vers Vidéo

Génération De Vidéo

GitHub

guandeh17/Self-Forcing

URL du document

2506.08009

1. Introduction au tutoriel

Self Forcing, proposé par l'équipe de Xun Huang le 9 juin 2025, est un nouveau paradigme d'entraînement pour les modèles de diffusion vidéo autorégressifs. Il résout le problème persistant du biais d'exposition, où les modèles entraînés sur un contexte réel doivent générer des séquences à partir de leurs propres sorties imparfaites lors de l'inférence. Contrairement aux méthodes précédentes qui débruitent les images futures à partir d'images du contexte réel, Self Forcing définit les conditions de génération de chaque image sur la sortie précédemment générée en effectuant un déploiement autorégressif avec mise en cache des paires clé-valeur (KV) pendant l'entraînement. Cette stratégie est supervisée par une fonction de perte globale au niveau vidéo qui évalue directement la qualité de la séquence générée entière, plutôt que de s'appuyer uniquement sur une fonction objectif traditionnelle image par image. Pour garantir l'efficacité de l'entraînement, un modèle de diffusion à quelques étapes et une stratégie de troncature du gradient stochastique sont utilisés, équilibrant efficacement le coût de calcul et les performances. Un mécanisme de mise en cache des paires clé-valeur est également introduit pour obtenir une extrapolation vidéo autorégressive efficace. Des expériences approfondies démontrent que leur méthode permet de générer du contenu vidéo en temps réel avec une latence inférieure à la seconde sur un seul GPU, tout en atteignant, voire en surpassant, la qualité de génération de modèles de diffusion non causaux et nettement plus lents. Les résultats de l'article associé sont les suivants : Auto-forçage : combler l'écart entre la formation et les tests dans la diffusion vidéo autorégressive .

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Description des paramètres

Paramètres avancés :
- Graine : valeur aléatoire qui contrôle le caractère aléatoire du processus de génération. Une graine fixe peut reproduire les mêmes résultats ; -1 indique une graine aléatoire.
- FPS cible : fréquence d'images cible. La valeur par défaut est 6, ce qui signifie que la vidéo générée est à 6 images par seconde.
- torch.compile : activez l'optimisation de la compilation PyTorch pour accélérer l'inférence du modèle (prise en charge de l'environnement requise).
- Quantification FP8 : permet la quantification à virgule flottante 8 bits, réduisant la précision de calcul pour augmenter la vitesse de génération (peut légèrement affecter la qualité).
- TAEHV VAE : spécifie le type de modèle d'autoencodeur variationnel (VAE) utilisé, ce qui peut affecter les détails ou le style générés.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{huang2025selfforcing,
  title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
  author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
  journal={arXiv preprint arXiv:2506.08009},
  year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

Forçage De Jacobi : Une Technique De Décodage Parallèle Causale Rapide Et Précise

il y a une heure

SAM3 : Modèle De Segmentation Visuelle

il y a 2 mois

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook

Date

il y a 6 mois

Taille

128.76 MB

Balises

Texte Vers Vidéo

Génération De Vidéo

GitHub

guandeh17/Self-Forcing

URL du document

2506.08009

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Description des paramètres

Paramètres avancés :
- Graine : valeur aléatoire qui contrôle le caractère aléatoire du processus de génération. Une graine fixe peut reproduire les mêmes résultats ; -1 indique une graine aléatoire.
- FPS cible : fréquence d'images cible. La valeur par défaut est 6, ce qui signifie que la vidéo générée est à 6 images par seconde.
- torch.compile : activez l'optimisation de la compilation PyTorch pour accélérer l'inférence du modèle (prise en charge de l'environnement requise).
- Quantification FP8 : permet la quantification à virgule flottante 8 bits, réduisant la précision de calcul pour augmenter la vitesse de génération (peut légèrement affecter la qualité).
- TAEHV VAE : spécifie le type de modèle d'autoencodeur variationnel (VAE) utilisé, ce qui peut affecter les détails ou le style générés.

4. Discussion

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{huang2025selfforcing,
  title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
  author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
  journal={arXiv preprint arXiv:2506.08009},
  year={2025}
}

Associé Notebooks

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

Forçage De Jacobi : Une Technique De Décodage Parallèle Causale Rapide Et Précise

il y a une heure

SAM3 : Modèle De Segmentation Visuelle

il y a 2 mois

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

il y a 2 mois

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

il y a 2 mois

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

il y a 2 mois

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Génération Vidéo En Temps Réel Auto-forcée

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Génération Vidéo En Temps Réel Auto-forcée

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Forçage De Jacobi : Une Technique De Décodage Parallèle Causale Rapide Et Précise

SAM3 : Modèle De Segmentation Visuelle

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Génération Vidéo En Temps Réel Auto-forcée

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Forçage De Jacobi : Une Technique De Décodage Parallèle Causale Rapide Et Précise

SAM3 : Modèle De Segmentation Visuelle

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Forçage De Jacobi : Une Technique De Décodage Parallèle Causale Rapide Et Précise

SAM3 : Modèle De Segmentation Visuelle

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Associé Notebooks

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Forçage De Jacobi : Une Technique De Décodage Parallèle Causale Rapide Et Précise

SAM3 : Modèle De Segmentation Visuelle

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective