il y a 3 mois

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao

Résumé

Bien que les modèles d’IA spécialisés excellent dans des tâches vidéo isolées telles que la génération ou la compréhension, les applications du monde réel exigent des flux de travail complexes et itératifs qui combinent ces capacités. Pour combler cet écart, nous introduisons UniVA, un cadre open-source et omnifonctionnel basé sur des agents multiples, conçu pour les généraux vidéo de nouvelle génération, qui intègre de manière cohérente la compréhension vidéo, la segmentation, l’édition et la génération dans des flux de travail unifiés. UniVA repose sur une architecture dual-agent Planifier-Exécuter, qui permet un flux de travail hautement automatisé et proactif : un agent planificateur interprète les intentions de l’utilisateur et les décompose en étapes structurées de traitement vidéo, tandis que des agents exécutants mettent en œuvre ces étapes via des serveurs d’outils modulaires basés sur le modèle MCP (pour l’analyse, la génération, l’édition, le suivi, etc.). Grâce à une mémoire hiérarchique à plusieurs niveaux (connaissances globales, contexte de tâche, préférences utilisateur spécifiques), UniVA assure un raisonnement à long terme, une continuité contextuelle et une communication inter-agents, permettant ainsi la création vidéo interactive, auto-réfléchie et entièrement traçable. Ce design rend possible des flux de travail vidéo itératifs et conditionnés par n’importe quel type d’entrée (par exemple, génération conditionnée par texte/image/vidéo → édition multi-tours → segmentation d’objets → synthèse compositionnelle), des tâches autrefois difficiles à réaliser avec des modèles unidimensionnels ou des modèles vidéo-langage monolithiques. Nous introduisons également UniVA-Bench, un ensemble de benchmarks comprenant des tâches vidéo multi-étapes couvrant la compréhension, l’édition, la segmentation et la génération, afin d’évaluer rigoureusement ces systèmes vidéo agents. À la fois UniVA et UniVA-Bench sont entièrement open-source, dans l’objectif de stimuler la recherche en intelligence vidéo interactive, agente et polyvalente, pour la prochaine génération de systèmes d’IA multimodaux. (https://univa.online/)

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

UniVA : Agent Vidéo Universel vers un Généraliste Vidéo de Prochaine Génération Open-Source

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniVA : Agent Vidéo Universel vers un Généraliste Vidéo de Prochaine Génération Open-Source

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniVA : Agent Vidéo Universel vers un Généraliste Vidéo de Prochaine Génération Open-Source

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao

Zhengyang Liang Daoan Zhang Huichi Zhou Rui Huang Bobo Li Yuechen Zhang Shengqiong Wu Xiaohan Wang Jiebo Luo Lizi Liao