Command Palette

Search for a command to run...

10日前

UniVA:オープンソース次世代動画汎用型エージェントへの道

UniVA:オープンソース次世代動画汎用型エージェントへの道

要約

専門化されたAIモデルは、動画生成や理解といった孤立したタスクにおいて優れた性能を発揮するが、現実世界の応用では、これらの機能を統合した複雑で反復的なワークフローが求められる。このギャップを埋めるために、本研究では、次世代の動画汎用AIを支えるオープンソースかつ多機能なマルチエージェントフレームワーク「UniVA」を提案する。UniVAは、動画理解、セグメンテーション、編集、生成を統合した一貫性のあるワークフローを実現する。本フレームワークは「計画・実行」型の二重エージェントアーキテクチャを採用しており、高度に自動化され、能動的な処理を可能にする。プランナー・エージェントがユーザーの意図を解釈し、構造化された動画処理ステップに分解するのに対し、エグゼキューター・エージェントはモジュール化されたMCPベースのツールサーバー(分析、生成、編集、トラッキングなど)を通じて各ステップを実行する。さらに、階層的な多レベルメモリ(グローバル知識、タスクコンテキスト、ユーザー固有の好み)を活用することで、長距離推論、文脈の一貫性、エージェント間の通信を維持し、トレーサビリティを確保したインタラクティブかつ自己反省的な動画生成を実現する。この設計により、従来の専用モデルやモノリシックな動画言語モデルでは実現が困難だった、反復的かつ任意の条件に応じた動画ワークフロー(例:テキスト/画像/動画条件付き生成 → 複数ラウンドの編集 → オブジェクトセグメンテーション → コンポジショナル合成)が可能となる。また、このようなエージェント型動画システムを厳密に評価できるよう、理解、編集、セグメンテーション、生成を網羅する複数ステップの動画タスクを含むベンチマークセット「UniVA-Bench」も同時に導入した。UniVAおよびUniVA-Benchはすべてオープンソースとして公開されており、次世代のマルチモーダルAIシステムにおけるインタラクティブ性、エージェント型、汎用的な動画インテリジェンスの研究を促進することを目的としている。(https://univa.online/)

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UniVA:オープンソース次世代動画汎用型エージェントへの道 | 論文 | HyperAI超神経