TransPixeler는 홍콩 중국 대학, 홍콩 과학기술 대학, Adobe Research가 2025년에 발표한 텍스트-비디오 생성 방법입니다. 이 방법은 원래 RGB 모델의 장점을 그대로 유지하면서 제한된 학습 데이터로 RGB와 알파 채널 간의 강력한 정렬을 달성합니다. 다양하고 일관된 RGBA 비디오를 효과적으로 생성하여 시각적 효과와 대화형 콘텐츠 제작 가능성을 확대합니다. 관련 논문 결과는 다음과 같습니다.TransPixeler: 투명성을 활용한 텍스트-비디오 생성 기술 발전", 되었습니다 CVPR 2025 수용하다.
이 튜토리얼에서는 단일 카드 A6000 리소스를 사용하며, 텍스트 설명은 현재 영어로만 지원됩니다.
2. 프로젝트 예시
3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.
2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.
매개변수 설명:
씨앗: 생성 과정의 무작위성을 제어하는 데 사용되는 난수 시드입니다. 동일한 Seed 값은 동일한 결과를 생성할 수 있습니다(다른 매개변수가 동일하다는 전제 하에). 이는 결과를 재현하는 데 매우 중요합니다.
사용 방법
4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
인용 정보
Github 사용자에게 감사드립니다 xxxjjjyyy1 이 튜토리얼의 배포. 이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@misc{wang2025transpixeler,
title={TransPixeler: Advancing Text-to-Video Generation with Transparency},
author={Luozhou Wang and Yijun Li and Zhifei Chen and Jui-Hsien Wang and Zhifei Zhang and He Zhang and Zhe Lin and Ying-Cong Chen},
year={2025},
eprint={2501.03006},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.03006},
}