4달 전

Show-o2: 개선된 본연의 통합 다중모드 모델

Jinheng Xie Zhenheng Yang Mike Zheng Shou

초록

본 논문은 자기 회귀 모델링과 흐름 일치를 활용한 개선된 원천 통합 다중모달 모델, 즉 Show-o2를 제시합니다. 3D 인과 변분 오토인코더 공간을 기반으로 하여, 시공간 융합의 이중 경로를 통해 통합된 시각 표현이 구축되며, 이는 이미지와 비디오 모달 간의 확장성을 보장하면서 효과적인 다중모달 이해 및 생성을 가능하게 합니다. 언어 모델을 기반으로, 자기 회귀 모델링과 흐름 일치는 각각 언어 헤드와 흐름 헤드에 원천적으로 적용되어 텍스트 토큰 예측과 이미지/비디오 생성을 촉진합니다. 두 단계 학습 방법론이 설계되어 더 큰 모델로 효과적으로 학습하고 확장할 수 있도록 하였습니다. 결과적으로 얻어진 Show-o2 모델들은 다양한 모달, 즉 텍스트, 이미지, 비디오 등에서 광범위한 다중모달 이해 및 생성 작업을 처리하는 데 있어 유연성을 보여주었습니다. 코드와 모델은 다음 주소에서 공개되었습니다: this https URL.

코드 저장소

showlab/show-o

공식

jax

GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

Show-o2: 개선된 본연의 통합 다중모드 모델

Jinheng Xie Zhenheng Yang Mike Zheng Shou

초록

코드 저장소

AI로 AI 구축

Hyper Newsletters