Command Palette

Search for a command to run...

3일 전

비디오-어답: 공동-그룹-정책 최적화를 통한 다음 비디오 이벤트 예측 및 생성

Junhao Cheng Liang Hou Xin Tao Jing Liao

비디오-어답: 공동-그룹-정책 최적화를 통한 다음 비디오 이벤트 예측 및 생성

초록

언어 모델이 다양한 실용적 응용 분야에서 큰 영향력을 발휘하고 있음에도 불구하고, 영상 생성은 여전히 엔터테인먼트 분야에 주로 국한되어 있다. 언어로만 전달하기 어려운 물리 세계의 정보를 시각적으로 보여줄 수 있는 영상의 본질적 잠재력을 고려할 때(예: 텍스트만으로 벨트를 매는 법을 가르치는 상황을 상상해보라), 우리는 다음 이벤트 예측(Next-Event Prediction, NEP)에 대한 새로운 응답 방식으로 영상을 확장할 수 있는 미개척의 기회를 식별하였다. 이를 정식화한 것이 영상-다음 이벤트 예측(Video-Next-Event Prediction, VNEP)이다. 기존의 NEP 작업은 절차적 또는 예측적 질문을 동반한 영상을 입력으로 받아 다음 이벤트를 텍스트로 예측하는 반면, VNEP은 동적 영상 응답을 요구한다. 이는 '설명하기'에서 '보여주기'로의 전환을 의미하며, 절차적 학습과 창의적 탐색에 더 직관적이고 맞춤형의 답변을 가능하게 한다. 그러나 기존 모델에 비해 이 작업은 여전히 도전적이다. 왜냐하면 다중 모달 입력 이해, 지시어 조건부 추론, 시각적·의미적 일관성을 갖춘 영상 생성이 필요하기 때문이다. 이를 해결하기 위해 우리는 강화 학습을 활용하여 시각-언어 모델(Vision-Language Model, VLM)과 영상 확산 모델(Video Diffusion Model, VDM)을 VNEP에 맞게 정렬하는 VANS를 제안한다. VANS의 핵심은 VLM과 VDM이 하나의 유닛처럼 작동하도록 조율하는 제안된 Joint-GRPO이다. 각각의 출력에 대해 공유된 보상 기반으로 동작하는 이 기법은 VLM이 정확하면서도 시각화에 적합한 캡션을 생성하도록 최적화하고, VDM이 해당 캡션과 입력 시각적 맥락을 충실히 반영한 영상을 생성하도록 안내한다. 이러한 학습을 가능하게 하기 위해 우리는 VNEP 작업을 위한 전용 데이터셋인 VANS-Data-100K를 구축하였다. 절차적 및 예측적 벤치마크에서의 실험 결과, VANS는 영상 이벤트 예측과 시각화 모두에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 코드는 https://github.com/KlingTeam/VANS 에 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
비디오-어답: 공동-그룹-정책 최적화를 통한 다음 비디오 이벤트 예측 및 생성 | 연구 논문 | HyperAI초신경