Command Palette
Search for a command to run...
Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

초록
대규모 언어 모델(LLM)의 놀라운 제로샷(zero-shot) 능력은 자연어 처리 분야를 특정 작업에 특화된 모델에서 통합적이고 포괄적인 기반 모델로 전환하는 계기를 마련했다. 이 전환은 단순한 원천에서 비롯되었다. 즉, 웹 규모의 데이터로 훈련된 대규모 생성형 모델이었다. 흥미롭게도, 같은 원천이 오늘날의 생성형 영상 모델에도 적용된다. 영상 모델도 언어 모델이 언어 이해의 포괄적 능력을 발전시킨 것처럼, 통합적 시각 이해로 나아가는 길을 밟고 있는 것은 아닐까? 우리는 Veo 3가 명시적으로 훈련되지 않은 다양한 작업을 해결할 수 있음을 입증한다. 예를 들어, 객체 분할, 경계 탐지, 이미지 편집, 물리적 성질 이해, 객체의 사용 가능성 인식, 도구 사용 시뮬레이션 등이 있다. 이러한 시각 세계를 인지하고 모델링하며 조작할 수 있는 능력은 미로 해결, 대칭성 이해 등 초기 형태의 시각적 추론을 가능하게 한다. Veo의 부상하는 제로샷 능력은 영상 모델이 통합적이고 포괄적인 시각 기반 모델로 진화하고 있음을 시사한다.