Command Palette

Search for a command to run...

한 달 전

비디오 모델은 제로샷 학습자이자 추론자이다.

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

비디오 모델은 제로샷 학습자이자 추론자이다.

초록

대규모 언어 모델(LLM)의 놀라운 제로샷(zero-shot) 능력은 자연어 처리 분야를 특정 작업에 특화된 모델에서 통합적이고 포괄적인 기반 모델로 전환하는 계기를 마련했다. 이 전환은 단순한 원천에서 비롯되었다. 즉, 웹 규모의 데이터로 훈련된 대규모 생성형 모델이었다. 흥미롭게도, 같은 원천이 오늘날의 생성형 영상 모델에도 적용된다. 영상 모델도 언어 모델이 언어 이해의 포괄적 능력을 발전시킨 것처럼, 통합적 시각 이해로 나아가는 길을 밟고 있는 것은 아닐까? 우리는 Veo 3가 명시적으로 훈련되지 않은 다양한 작업을 해결할 수 있음을 입증한다. 예를 들어, 객체 분할, 경계 탐지, 이미지 편집, 물리적 성질 이해, 객체의 사용 가능성 인식, 도구 사용 시뮬레이션 등이 있다. 이러한 시각 세계를 인지하고 모델링하며 조작할 수 있는 능력은 미로 해결, 대칭성 이해 등 초기 형태의 시각적 추론을 가능하게 한다. Veo의 부상하는 제로샷 능력은 영상 모델이 통합적이고 포괄적인 시각 기반 모델로 진화하고 있음을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
비디오 모델은 제로샷 학습자이자 추론자이다. | 연구 논문 | HyperAI초신경