HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

ImagerySearch : Recherche adaptative en temps de test pour la génération vidéo au-delà des contraintes de dépendance sémantique

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

ImagerySearch : Recherche adaptative en temps de test pour la génération vidéo au-delà des contraintes de dépendance sémantique

Résumé

Les modèles de génération vidéo ont connu des progrès remarquables, notamment dans des scénarios réalistes ; toutefois, leurs performances se dégradent sensiblement dans des scénarios imaginatifs. Ces prompts impliquent souvent des concepts peu fréquemment co-occurrents, aux relations sémantiques à longue distance, et sortent ainsi du domaine de distribution d’entraînement. Les méthodes existantes appliquent généralement une mise à l’échelle au moment du test afin d’améliorer la qualité vidéo, mais leurs espaces de recherche fixes et leurs fonctions de récompense statiques limitent leur adaptabilité aux scénarios imaginatifs. Pour combler ce manque, nous proposons ImagerySearch, une stratégie d’optimisation adaptative au moment du test guidée par le prompt, qui ajuste dynamiquement à la fois l’espace de recherche d’inférence et la fonction de récompense en fonction des relations sémantiques présentes dans le prompt. Cela permet de générer des vidéos plus cohérentes et visuellement plausibles dans des contextes imaginatifs exigeants. Pour évaluer les progrès dans cette direction, nous introduisons LDT-Bench, le premier benchmark dédié aux prompts à relations sémantiques à longue distance, composé de 2 839 paires de concepts diversifiées et d’un protocole automatisé pour évaluer les capacités de génération créative. Des expériences étendues montrent que ImagerySearch dépasse de manière cohérente les modèles de référence de génération vidéo ainsi que les approches existantes de mise à l’échelle au moment du test sur LDT-Bench, tout en obtenant des améliorations compétitives sur VBench, démontrant ainsi son efficacité face à divers types de prompts. Nous rendrons LDT-Bench et le code disponibles afin de faciliter les recherches futures sur la génération vidéo imaginative.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ImagerySearch : Recherche adaptative en temps de test pour la génération vidéo au-delà des contraintes de dépendance sémantique | Articles de recherche | HyperAI