Back to Headlines

DeepMind提出“帧链”理论:Veo 3展现视频生成模型的通用智能潜力

5일 전

Google DeepMind는 생성형 비디오 모델 Veo 3이 '프레임 체인'(CoF, Chain-of-Frames)이라는 개념을 통해 영상 내부에서 다단계 시각적 추론을 수행할 수 있음을 입증한 논문을 발표했다. 이는 대규모 언어 모델의 '사고 체인'(CoT)과 대응되는 개념으로, 비디오 생성 과정에서 시간과 공간을 단계적으로 변화시키며 문제를 해결하는 방식을 의미한다. 연구팀은 18,000개 이상의 생성 영상을 분석해 Veo 3가 미리 훈련되지 않은 상태에서도 이미지 분할, 엣지 감지, 초해상도 복원, 물리적 현상 이해 등 다양한 시각적 작업을 수행함을 확인했다. 특히 물리적 상호작용(예: 물체의 무게 중심, 반발력), 객체 기능 이해, 장면 상태 기억 등 복잡한 인지 능력도 보였으며, 미로 탐색, 수수께끼 해결, 시각적 대칭 보완 등 추론 과제에서도 높은 성능을 기록했다. 5×5 미로에서 성공률은 78%에 달했으며, 기존 모델 Veo 2의 14%를 크게 상회했다. 이미지 중심 모델이나 언어 모델과 비교해도, 영상의 시간적 흐름을 활용한 점진적 해결 방식이 시각적 추론에 유리함을 입증했다. 연구팀은 이처럼 다목적이고 영역에 관계없이 작동하는 능력이 ‘기초 시각 모델’의 출현을 시사하며, 이는 언어 모델이 NLP 분야를 통합했던 과거와 유사한 전환점이 될 수 있다고 강조했다. 비록 현재는 계산 비용이 높고 일부 과제에서 전문 모델에 미치지 못하지만, 언어 모델의 역사와 유사하게 성능 향상과 비용 감소가 지속될 것으로 전망된다.

Related Links