Command Palette
Search for a command to run...
Jinheng Xie Zhenheng Yang Mike Zheng Shou

초록
본 논문은 자기 회귀 모델링과 흐름 일치를 활용한 개선된 원천 통합 다중모달 모델, 즉 Show-o2를 제시합니다. 3D 인과 변분 오토인코더 공간을 기반으로 하여, 시공간 융합의 이중 경로를 통해 통합된 시각 표현이 구축되며, 이는 이미지와 비디오 모달 간의 확장성을 보장하면서 효과적인 다중모달 이해 및 생성을 가능하게 합니다. 언어 모델을 기반으로, 자기 회귀 모델링과 흐름 일치는 각각 언어 헤드와 흐름 헤드에 원천적으로 적용되어 텍스트 토큰 예측과 이미지/비디오 생성을 촉진합니다. 두 단계 학습 방법론이 설계되어 더 큰 모델로 효과적으로 학습하고 확장할 수 있도록 하였습니다. 결과적으로 얻어진 Show-o2 모델들은 다양한 모달, 즉 텍스트, 이미지, 비디오 등에서 광범위한 다중모달 이해 및 생성 작업을 처리하는 데 있어 유연성을 보여주었습니다. 코드와 모델은 다음 주소에서 공개되었습니다: this https URL.
코드 저장소
showlab/show-o
공식
jax
GitHub에서 언급됨