Command Palette

Search for a command to run...

10일 전

UniVA: 오픈소스 다음 세대 비디오 종합 모델을 위한 유니버설 비디오 에이전트

UniVA: 오픈소스 다음 세대 비디오 종합 모델을 위한 유니버설 비디오 에이전트

초록

특화된 AI 모델은 영상 생성이나 이해와 같은 단일 작업에서 뛰어난 성능을 발휘하지만, 실제 응용에서는 이러한 능력을 통합하는 복잡하고 반복적인 워크플로우가 요구된다. 이 격차를 극복하기 위해 우리는 다음 세대 영상 일반화 모델을 위한 오픈소스이자 종합적인 다중 에이전트 프레임워크인 UniVA를 소개한다. UniVA는 영상 이해, 세그멘테이션, 편집, 생성을 일관된 워크플로우로 통합하여, 고도로 자동화되고 능동적인 처리를 가능하게 한다. UniVA는 ‘계획-실행’ 이중 에이전트 아키텍처를 채택하며, 계획 에이전트는 사용자의 의도를 해석하고 이를 구조화된 영상 처리 단계로 분해하고, 실행 에이전트는 모듈식이고 MCP 기반의 도구 서버(분석, 생성, 편집, 추적 등)를 통해 이를 수행한다. 고차원의 다수준 메모리 구조(전체 지식, 작업 맥락, 사용자 맞춤형 선호)를 통해 UniVA는 장기적 추론, 맥락의 일관성, 에이전트 간의 소통을 유지하며, 완전한 추적 가능성을 갖춘 상호작용적이고 자기반성적인 영상 생성을 가능하게 한다. 이러한 설계는 기존의 전용 모델이나 단일 구조의 영상-언어 모델로는 어려웠던 반복적이고 조건에 따라 유연하게 조정 가능한 영상 워크플로우(예: 텍스트/이미지/영상 조건 기반 생성 → 다차례 편집 → 객체 세그멘테이션 → 구성적 합성)를 실현할 수 있게 한다. 또한, 이러한 에이전트 기반 영상 시스템을 철저히 평가하기 위해 이해, 편집, 세그멘테이션, 생성을 아우르는 다단계 영상 작업 벤치마크인 UniVA-Bench를 제안한다. UniVA와 UniVA-Bench는 모두 완전히 오픈소스로 공개되며, 다음 세대 다모달 AI 시스템을 위한 상호작용적이고 에이전트 기반, 일반 목적의 영상 지능 연구를 촉진하는 것을 목표로 한다. (https://univa.online/)

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UniVA: 오픈소스 다음 세대 비디오 종합 모델을 위한 유니버설 비디오 에이전트 | 연구 논문 | HyperAI초신경