Command Palette
Search for a command to run...
Pusa-VidGen 비디오 생성 모델 데모
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

야오팡-류 연구팀이 2025년 7월 25일에 제안한 Pusa V1은 고효율 멀티모달 비디오 생성 모델입니다. 벡터화된 시간 적응(VTA) 기술을 기반으로 기존 비디오 생성 모델의 핵심 문제인 높은 학습 비용, 낮은 추론 효율, 시간적 일관성 부족을 해결합니다. 대규모 데이터와 컴퓨팅 파워에 의존하는 기존 방식과 달리, Pusa V1은 경량화된 미세 조정 전략을 통해 Wan2.1-T2V-14B 기반의 획기적인 최적화를 달성했습니다. 학습 비용은 단 500달러(유사 모델의 1/200)에 불과하고, 필요한 데이터셋은 4,000개 샘플(유사 모델의 1/2,500)에 그치며, 80GB GPU 8개만으로도 학습을 완료할 수 있어 비디오 생성 기술의 적용 장벽을 크게 낮췄습니다. 이 모델은 강력한 멀티태스킹 기능을 갖추고 있어 텍스트 기반 비디오(T2V) 및 이미지 기반 비디오(I2V)뿐만 아니라 비디오 완성, 첫 프레임 및 마지막 프레임 생성, 장면 전환과 같은 제로샷 작업까지 특정 장면에 대한 추가 학습 없이 지원합니다. 더욱 중요한 것은 생성 성능이 특히 뛰어나다는 점입니다. 단 10단계의 추론 전략을 통해 VBench-I2V 플랫폼에서 87.32%의 총점을 달성하여 팔다리 움직임이나 조명 변화와 같은 동적 디테일 재현 및 시간적 일관성에서 탁월한 성능을 보여줍니다. 또한 VTA 기술을 통해 구현된 비파괴 적응 메커니즘은 기존 모델의 이미지 생성 품질을 유지하면서 시간적 동적 기능을 기본 모델에 주입하여 "1+1>2" 효과를 달성합니다. 배포 단계에서 낮은 추론 지연 시간은 빠른 미리보기부터 고화질 출력까지 다양한 요구 사항을 충족하므로 창의적인 디자인, 단편 비디오 제작 및 기타 시나리오에 적합합니다. 관련 논문 결과는 다음과 같습니다... PUSA V1.0: 벡터화된 타임스텝 적응을 통해 $500의 학습 비용으로 WAN-I2V를 능가 .
이 튜토리얼에서는 듀얼 카드 RTX A6000 리소스를 사용합니다.
2. 프로젝트 예시
1. 이미지-비디오 변환

2. 비디오에 대한 다중 프레임

3. 비디오-비디오

4. 텍스트-비디오 변환

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
2.1 이미지-비디오 변환

매개변수 설명
- 생성 매개변수
- 노이즈 배수: 0.0에서 1.0까지 조정 가능하며, 기본값은 0.2입니다(값이 낮을수록 입력 이미지에 더 충실하고, 값이 높을수록 더 창의적입니다).
- LoRA Alpha: 0.1에서 5.0까지 조정 가능, 기본값은 1.4(스타일의 일관성을 제어합니다. 너무 높으면 뻣뻣해지고, 너무 낮으면 일관성을 잃습니다).
- 추론 단계: 1에서 50까지 조정 가능하며, 기본값은 10입니다(단계 수가 높을수록 세부 정보가 풍부해지지만 시간 소모는 선형적으로 증가합니다).
2.2 비디오에 대한 다중 프레임

매개변수 설명
- 조건 매개변수
- 조건부 위치: 쉼표로 구분된 프레임 인덱스(예: "0,20"은 비디오의 키프레임 시간 지점을 정의함).
- 노이즈 배수: 쉼표로 구분된 0.0-1.0 값(예: "0.2,0.5"는 각 키프레임의 창의적 자유도에 해당하며, 값이 낮을수록 프레임에 더 충실하고, 값이 높을수록 더 다양함).
- 생성 매개변수
- LoRA Alpha: 0.1에서 5.0까지 조정 가능, 기본값은 1.4(스타일의 일관성을 제어합니다. 너무 높으면 뻣뻣해지고, 너무 낮으면 일관성을 잃습니다).
- 추론 단계: 1에서 50까지 조정 가능하며, 기본값은 10입니다(단계 수가 높을수록 세부 정보가 풍부해지지만 시간 소모는 선형적으로 증가합니다).
2.3 비디오-비디오

매개변수 설명
- 조건 매개변수
- 조건 지정 위치: 쉼표로 구분된 프레임 인덱스(예: "0,1,2,3"은 제약 조건 생성에 사용되는 원본 비디오의 키프레임 위치를 지정하며 필수임).
- 노이즈 배수: 쉼표로 구분된 0.0-1.0 값(예: "0.0,0.3"은 각 조건 프레임의 영향 정도에 해당하며, 값이 낮을수록 원래 프레임에 더 가깝고, 값이 높을수록 더 유연함).
- 생성 매개변수
- LoRA Alpha: 0.1에서 5.0까지 조정 가능, 기본값은 1.4(스타일의 일관성을 제어합니다. 너무 높으면 뻣뻣해지고, 너무 낮으면 일관성을 잃습니다).
- 추론 단계: 1에서 50까지 조정 가능하며, 기본값은 10입니다(단계 수가 높을수록 세부 정보가 풍부해지지만 시간 소모는 선형적으로 증가합니다).
2.4 텍스트-비디오

매개변수 설명
- 생성 매개변수
- LoRA Alpha: 0.1에서 5.0까지 조정 가능, 기본값은 1.4(스타일의 일관성을 제어합니다. 너무 높으면 뻣뻣해지고, 너무 낮으면 일관성을 잃습니다).
- 추론 단계: 1에서 50까지 조정 가능하며, 기본값은 10입니다(단계 수가 높을수록 세부 정보가 풍부해지지만 시간 소모는 선형적으로 증가합니다).
4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@article{liu2025pusa,
title={PUSA V1. 0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation},
author={Liu, Yaofang and Ren, Yumeng and Artola, Aitor and Hu, Yuxuan and Cun, Xiaodong and Zhao, Xiaotong and Zhao, Alan and Chan, Raymond H and Zhang, Suiyun and Liu, Rui and others},
journal={arXiv preprint arXiv:2507.16116},
year={2025}
}
@misc{Liu2025pusa,
title={Pusa: Thousands Timesteps Video Diffusion Model},
author={Yaofang Liu and Rui Liu},
year={2025},
url={https://github.com/Yaofang-Liu/Pusa-VidGen},
}
@article{liu2024redefining,
title={Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach},
author={Liu, Yaofang and Ren, Yumeng and Cun, Xiaodong and Artola, Aitor and Liu, Yang and Zeng, Tieyong and Chan, Raymond H and Morel, Jean-michel},
journal={arXiv preprint arXiv:2410.03160},
year={2024}
}