HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 jours

UniVA : Agent Vidéo Universel vers un Généraliste Vidéo de Prochaine Génération Open-Source

UniVA : Agent Vidéo Universel vers un Généraliste Vidéo de Prochaine Génération Open-Source

Résumé

Bien que les modèles d’IA spécialisés excellent dans des tâches vidéo isolées telles que la génération ou la compréhension, les applications du monde réel exigent des flux de travail complexes et itératifs qui combinent ces capacités. Pour combler cet écart, nous introduisons UniVA, un cadre open-source et omnifonctionnel basé sur des agents multiples, conçu pour les généraux vidéo de nouvelle génération, qui intègre de manière cohérente la compréhension vidéo, la segmentation, l’édition et la génération dans des flux de travail unifiés. UniVA repose sur une architecture dual-agent Planifier-Exécuter, qui permet un flux de travail hautement automatisé et proactif : un agent planificateur interprète les intentions de l’utilisateur et les décompose en étapes structurées de traitement vidéo, tandis que des agents exécutants mettent en œuvre ces étapes via des serveurs d’outils modulaires basés sur le modèle MCP (pour l’analyse, la génération, l’édition, le suivi, etc.). Grâce à une mémoire hiérarchique à plusieurs niveaux (connaissances globales, contexte de tâche, préférences utilisateur spécifiques), UniVA assure un raisonnement à long terme, une continuité contextuelle et une communication inter-agents, permettant ainsi la création vidéo interactive, auto-réfléchie et entièrement traçable. Ce design rend possible des flux de travail vidéo itératifs et conditionnés par n’importe quel type d’entrée (par exemple, génération conditionnée par texte/image/vidéo → édition multi-tours → segmentation d’objets → synthèse compositionnelle), des tâches autrefois difficiles à réaliser avec des modèles unidimensionnels ou des modèles vidéo-langage monolithiques. Nous introduisons également UniVA-Bench, un ensemble de benchmarks comprenant des tâches vidéo multi-étapes couvrant la compréhension, l’édition, la segmentation et la génération, afin d’évaluer rigoureusement ces systèmes vidéo agents. À la fois UniVA et UniVA-Bench sont entièrement open-source, dans l’objectif de stimuler la recherche en intelligence vidéo interactive, agente et polyvalente, pour la prochaine génération de systèmes d’IA multimodaux. (https://univa.online/)

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UniVA : Agent Vidéo Universel vers un Généraliste Vidéo de Prochaine Génération Open-Source | Articles de recherche | HyperAI