Vchitect-2.0 비디오 확산 모델 데모
프로젝트 개요
Vchitect-2.0은 상하이 인공지능 연구소 팀이 2024년 9월에 개발한 고품질 비디오 생성 시스템입니다. 이 모델은 20억 개의 매개변수를 갖춘 혁신적인 병렬 트랜스포머 아키텍처 설계를 사용하여 텍스트 프롬프트를 기반으로 부드럽고 고품질의 비디오 콘텐츠를 생성할 수 있습니다.Vchitect-2.0: 비디오 확산 모델 확장을 위한 병렬 변환기".
이 튜토리얼에서는 단일 카드 A6000에 대한 리소스를 사용합니다.
실행 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 웹 페이지에 접속하면 모델과 상호작용이 가능합니다.
비디오를 생성하려면 텍스트 프롬프트를 입력해야 합니다. 텍스트 프롬프트는 영어만 지원합니다. 텍스트 프롬프트의 길이는 제한이 없지만 100자 이내로 작성하는 것이 좋습니다. 그렇지 않으면 생성된 비디오가 너무 길어져 비디오 품질에 영향을 줄 수 있습니다. 비디오는 약 2~5분 정도 기다려야 하므로 양해 부탁드립니다.

교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
Github 사용자에게 감사드립니다 장준창 이 튜토리얼을 배포하기 위한 프로젝트 참조 정보는 다음과 같습니다.
@article{fan2025vchitect,
title={Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models},
author={Fan, Weichen and Si, Chenyang and Song, Junhao and Yang, Zhenyu and He, Yinan and Zhuo, Long and Huang, Ziqi and Dong, Ziyue and He, Jingwen and Pan, Dongwei and others},
journal={arXiv preprint arXiv:2501.08453},
year={2025}
}