il y a 3 jours

Résumé

Les modèles de diffusion et de flow matching ont débloqué des capacités sans précédent dans la création de contenu créatif, telles que la génération d'images interactives et de vidéos en flux continu. Cependant, la demande croissante de résolutions, de fréquences d'images et de longueurs de contexte plus élevées rend la génération efficace de plus en plus complexe, la complexité computationnelle augmentant de manière quadratique avec le nombre de tokens générés. Notre travail vise à optimiser l'efficacité du processus de génération dans des scénarios où la position du regard de l'utilisateur est connue ou peut être estimée, par exemple grâce au suivi oculaire (eye tracking). Dans ces contextes, nous exploitons l'acuité visuelle dépendante de l'excentricité : tandis qu'un utilisateur perçoit des informations visuelles de très haute résolution dans une petite région entourant son point de fixation (la région fovéale), sa capacité à discerner les détails se dégrade rapidement dans la périphérie du champ visuel. Notre approche commence par l'utilisation d'un masque modélisant la résolution fovéalisée pour allouer les tokens de manière non uniforme, en attribuant une densité de tokens plus élevée aux régions fovéales et une densité plus faible aux régions périphériques. Une image ou une vidéo est ainsi générée dans un cadre de tokens à résolution mixte, produisant des résultats perceptuellement indiscernables d'une génération en pleine résolution, tout en réduisant drastiquement le nombre de tokens et le temps de génération. À cette fin, nous avons développé un mécanisme rigoureux permettant de construire des tokens à résolution mixte directement à partir de données haute résolution, autorisant l'entraînement postérieur d'un modèle de diffusion fovéalisé à partir d'un modèle de base existant, tout en maintenant la cohérence du contenu à travers les différentes résolutions. Nous validons notre approche par une analyse approfondie et une étude utilisateur soigneusement conçue, démontrant l'efficacité de la fovéalisation en tant qu'axe pratique et évolutif pour une génération efficiente.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 jours

Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 jours

Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Diffusion fovéale : génération efficace d'images et de vidéos à adaptation spatiale | Articles | HyperAI

Command Palette

Diffusion fovéale : génération efficace d'images et de vidéos à adaptation spatiale

Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Diffusion fovéale : génération efficace d'images et de vidéos à adaptation spatiale

Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Diffusion fovéale : génération efficace d'images et de vidéos à adaptation spatiale

Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters