라떼월드 최초 오픈소스 빈센트 영상 DiT
종이 | 프로젝트 페이지
프로젝트 소개
소라의 성공적인 출시와 함께 비디오 DiT 모델은 많은 관심과 논의를 받았습니다. 안정적이고 초대규모의 신경망을 설계하는 것은 항상 시각 생성 분야의 연구 초점이었습니다. DiT의 성공으로 이미지 생성을 확장하는 것이 가능해졌습니다. Latte(Latent Diffusion Transformer for Video Generation)는 2023년 11월에 오픈 소스로 공개된 혁신적인 비디오 생성 모델입니다. 세계 최초의 오픈 소스 Vincent 비디오 DiT인 Latte는 유망한 성과를 달성했습니다.
이 튜토리얼에서는 Latte 프로젝트의 효과 구현을 보여줍니다.
효과 표시

지도 시간
Latte를 이용한 맞춤형 텍스트-비디오 생성
1. 컨테이너를 복제하고 실행하세요.
2. 작업 공간을 열고 텍스트 프롬프트를 설정합니다.
왼쪽의 구성 파일을 엽니다 home/Latte/configs/t2v/t2v_sample.yaml
, 더블클릭해서 열고, text_prompt 아래의 텍스트를 수정합니다. 이 기사에서는 아래와 같이 관련 사례를 제시했습니다. 수정 후 ctrl+S
구하다.

3. 비디오 생성
터미널을 열고 다음을 입력하세요.cd Latte/
디렉토리 변경,
터미널에 다음을 입력하세요.bash sample/t2v.sh
고화질 비디오를 생성하고 프로그램 실행이 완료될 때까지 기다린 후 Latte/sample_videos
생성된 결과는 디렉토리에 있으며, t2v_0000-.mp4는 프롬프트 텍스트의 전체 비디오이고, 다른 .mp4 파일은 단일 프롬프트에서 생성된 비디오입니다.
참고: 생성된 비디오는 컨테이너에서 직접 볼 수 없습니다. 비디오를 보려면 파일을 마우스 오른쪽 버튼으로 클릭하여 로컬 컴퓨터에 다운로드해야 합니다.
기타 코드 정보
라떼 추론 코드
Latte는 4개의 표준 비디오 생성 데이터 세트(FaceForensics, SkyTimelapse, UCF101 및 Taichi-HD)를 학습하여 4개의 모델을 얻을 수 있습니다. 각 모델은 해당 장면의 비디오를 생성합니다. 다음은 작업에 대한 설명입니다. 먼저 프로젝트에 들어가서 터미널을 열고 다음을 입력하세요.cd Latte/
1. FaceForensics: 합성 이미지에서 얼굴 감지
터미널에 다음을 입력하세요.bash sample/ffs.sh
프로그램이 완료된 후 얼굴을 생성하려면 Latte/test_ffs
디렉토리에서 생성된 결과를 확인하세요.
참고: 생성된 각 결과는 이전 결과를 덮어씁니다.
2. SkyTimelapse: 사진으로 보는 하늘 이미지
터미널에 다음을 입력하세요.bash sample/sky.sh
프로그램이 종료된 후 하늘을 생성하려면 왼쪽을 사용하십시오. Latte/test_sky
디렉토리에서 결과를 생성하고 이를 로컬 컴퓨터에 다운로드하여 볼 수 있습니다.
3. UCF101: 사실적인 액션 영상을 통한 액션 인식
터미널에 다음을 입력하세요.bash sample/ucf101.sh
프로그램이 끝난 후 실제 행동을 생성하려면 Latte/test_UCF101
디렉토리에서 결과를 생성하고 이를 로컬 컴퓨터에 다운로드하여 볼 수 있습니다.
4. 태극권-HD; 고화질 비디오 생성
터미널에 다음을 입력하세요.bash sample/taichi.sh
고화질 영상을 생성하려면 프로그램이 완료된 후, Latte/test_Taichi
디렉토리에서 결과를 생성하고 이를 로컬 컴퓨터에 다운로드하여 볼 수 있습니다.