Allegro 비디오 생성 데모

튜토리얼 소개
该教程至少需要 NVIDIA RTX A6000 48GB 启动。
Allegro는 Rhymes AI가 2024년에 개발한 최첨단 텍스트-비디오 생성 모델로, 기본 텍스트 입력을 720p 해상도, 초당 15프레임의 부드러움, 최대 6초의 비디오 길이를 갖춘 고화질 비디오 콘텐츠로 변환할 수 있는 기능을 갖추고 있습니다. 관련 논문 결과는 다음과 같습니다.Allegro: 상업 수준 비디오 생성 모델의 블랙박스를 열어보세요". 이 모델은 비디오 합성 분야에서 뛰어난 성능을 보여주며, 특히 품질과 시간적 일관성 모두에서 탁월한 성능을 발휘합니다. 설명 텍스트를 기반으로 동적인 시각 콘텐츠를 빠르게 생성하여 콘텐츠 제작자에게 유연하고 제어 가능한 비디오 제작 방식을 제공합니다. 사용자 연구에서 Allegro 모델은 기존 오픈 소스 모델은 물론 대부분의 상용 모델보다 뛰어난 성능을 보였습니다. 또한, Allegro는 모델 확장, 신속한 개선 적응성, 비디오 토크나이저 설계 등 기본 기능 향상에 대한 통찰력과 지침을 제공합니다. 이러한 향상된 기능들을 통해 입력 텍스트의 내러티브 세부 정보를 기반으로 복잡한 비디오 콘텐츠를 생성하는 모델의 성능이 향상됩니다.
이 튜토리얼은 모델 추론 튜토리얼입니다. 모델이 비디오를 생성하는 데 시간이 오래 걸리므로, 이 튜토리얼에서는 5초 분량의 비디오만 생성할 수 있습니다(약 40분 소요).
실행 단계
컨테이너를 복제하고 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

1. 텍스트 생성 비디오
- 텍스트 프롬프트를 입력하고 제출을 클릭하세요(모델을 로드하는 데 약 30초가 걸리고, 그 후 진행률 표시줄이 표시되고 비디오 생성이 시작됩니다. 5초 분량의 비디오를 생성하는 데 약 40분이 걸립니다. 잠시만 기다려 주세요.)
아래 그림과 같이

- 비디오가 생성되면 진행률 표시줄이 자동으로 비디오 재생으로 변경됩니다.
아래 그림과 같이

2. 비디오 다운로드
- 영상 오른쪽에 있는 다운로드 버튼을 클릭하면 영상을 다운로드할 수 있습니다.
아래 그림과 같이

교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
