HyperAI

Voici la traduction du texte en français, rédigée dans un style formel et académique adapté au domaine de la vision par ordinateur et de l'intelligence artificielle générative :Les modèles génératifs vidéo à grande échelle ont récemment démontré de puissantes capacités visuelles, permettant la prédiction de trames futures conformes aux indices logiques et physiques de l'observation courante. Dans cette étude, nous cherchons à déterminer si ces capacités peuvent être mises à profit pour la génération image-vidéo contrôlable, en interprétant les signaux visuels intégrés dans les trames comme des instructions, un paradigme que nous désignons sous le terme d'« Instruction Intra-Vidéo » (In-Video Instruction). À la différence du contrôle par invite de commande (prompt), qui fournit des descriptions textuelles par nature globales et peu granulaires, l'Instruction Intra-Vidéo encode les directives de l'utilisateur directement dans le domaine visuel via des éléments tels que du texte superposé, des flèches ou des trajectoires. Cette approche permet d'établir des correspondances explicites, spatialement définies et sans équivoque entre les sujets visuels et les actions souhaitées, en assignant des instructions distinctes aux différents objets. Des expériences approfondies menées sur trois générateurs de pointe — incluant Veo 3.1, Kling 2.5 et Wan 2.2 — montrent que les modèles vidéo sont capables d'interpréter et d'exécuter de manière fiable de telles instructions visuellement intégrées, particulièrement dans des scénarios complexes impliquant de multiples objets.

Instructions In-Video : Signaux visuels comme contrôle génératif

Gongfan Fang Xinyin Ma Xinchao Wang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Instructions In-Video : Signaux visuels comme contrôle génératif

Gongfan Fang Xinyin Ma Xinchao Wang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters