UniVA: Universal Video Agent hin zu einer Open-Source-Nachfolge-Video-Allzweck-Agenten

Abstract
Während spezialisierte KI-Modelle bei isolierten Video-Aufgaben wie Generierung oder Verständnis hervorragende Leistungen erbringen, erfordern reale Anwendungen komplexe, iterative Workflows, die diese Fähigkeiten kombinieren. Um diese Lücke zu schließen, stellen wir UniVA vor – ein Open-Source-, omni-fähiges Multi-Agenten-System für zukünftige allgemeine Video-Intelligenz, das Video-Verständnis, Segmentierung, Bearbeitung und Generierung in kohärente Workflows integriert. UniVA nutzt eine Plan-und-Aktivität-architektur mit zwei Agenten, die einen hochgradig automatisierten und proaktiven Workflow ermöglicht: Ein Planungs-Agent interpretiert Benutzerabsichten und zerlegt sie in strukturierte Schritte der Video-Verarbeitung, während Ausführungs-Agenten diese über modulare, auf MCP basierende Tool-Server (z. B. für Analyse, Generierung, Bearbeitung, Verfolgung usw.) realisieren. Durch ein hierarchisches, mehrstufiges Gedächtnis (globales Wissen, Task-Kontext und benutzerspezifische Präferenzen) gewährleistet UniVA langfristiges Schlussfolgern, kontextuelle Kontinuität und interagenten Austausch, wodurch interaktive und selbstreflektierende Video-Erstellung mit vollständiger Nachvollziehbarkeit ermöglicht wird. Diese Architektur erlaubt iterative und beliebig bedingte Video-Workflows (z. B. text-/bild-/videobedingte Generierung → mehrfache Bearbeitungsrunden → Objekt-Segmentierung → kompositionelle Synthese), die bisher mit Einzelzweck-Modellen oder monolithischen Video-Sprache-Modellen schwer zu realisieren waren. Zudem führen wir UniVA-Bench ein – eine Benchmark-Suite für mehrstufige Video-Aufgaben, die die Bereiche Verständnis, Bearbeitung, Segmentierung und Generierung abdeckt –, um solche agentenbasierten Video-Systeme rigoros zu evaluieren. Sowohl UniVA als auch UniVA-Bench sind vollständig Open-Source und sollen die Forschung an interaktiver, agenter und allgemeiner Video-Intelligenz für die nächste Generation multimodaler KI-Systeme voranbringen. (https://univa.online/)
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.