온라인 튜토리얼丨소라의 기술적인 경로와 유사합니다! 세계 최초 오픈소스 빈센트 비디오 DiT 모델 라떼 원클릭 배포

OpenAI가 Sora를 출시한 이래로 "빈티지 비디오"라는 컨셉과 관련 애플리케이션이 많은 주목을 받았습니다. 소라의 인기로 인해그 핵심 기술인 DiT(확산 변압기)도 "고고학적으로 발굴"되었습니다.

사실, DiT는 2년 전에 오픈 소스로 공개된 텍스트 그래프 모델입니다. 개발자는 피블스와 셰 사이닝이고, 피블스는 소라의 프로젝트 리더 중 한 명이기도 합니다.
DiT 모델이 제안되기 전에는 Transformer가 강력한 기능 추출 및 컨텍스트 이해 기능으로 자연어 처리 분야를 거의 장악하고 있었습니다. 독특한 아키텍처와 뛰어난 성능을 갖춘 U-Net은 이미지 생성 및 확산 모델 분야를 선도하고 있습니다. DiT의 가장 큰 특징은 확산 모델의 U-Net 아키텍처를 Transformer 아키텍처로 대체한다는 것입니다.흥미롭게도 이 연구는 혁신성이 부족하다는 이유로 2023년 CVPR에서 거부되었습니다.
U-Net과 비교했을 때, Transformer는 확장성이 더 뛰어납니다. 셀프 어텐션 메커니즘을 통해 전역 종속성을 학습하고 시퀀스 데이터의 장거리 종속성 문제를 처리할 수 있습니다. 이는 글로벌 이미지 특징을 처리하는 데 큰 장점이 있습니다. 또한, Transformer 아키텍처를 기반으로 한 DiT는 계산 효율성과 생성 효과 면에서도 상당한 개선을 이루었으며, 대규모 이미지 생성 응용 프로그램을 더욱 촉진했습니다.
그러나 비디오 데이터는 구조가 매우 복잡하고 그 구조가 매우 깊기 때문에 DiT를 비디오 생성 분야로 확장하는 것은 쉽지 않습니다. 이와 관련하여,상하이 인공지능연구소 연구팀은 2023년 말 세계 최초의 비닐 비디오 DiT:Latte를 오픈소스로 공개했습니다. Sora와 유사한 기술을 탑재한 자체 개발 모델인 DiT:Latte는 자유롭게 배포할 수 있습니다.빈센트 비디오 기술을 탐색하고 싶은 사람들에게 오픈 소스 라떼는 의심할 여지 없이 연습할 수 있는 기회를 제공합니다.

먼저, Latte는 사전 훈련된 변형 자동 인코더(VAE)를 통해 입력 비디오를 잠재 공간의 특징으로 인코딩하고 여기에서 토큰을 추출합니다. 다음으로, 이러한 토큰은 위의 변형 중 하나에 해당하는 변환기 구조를 사용하여 인코딩되고 디코딩됩니다. 생성 과정에서 모델은 학습된 역확산 과정을 기반으로 잠재 공간에서 저잡음 비디오 프레임 표현을 점진적으로 복원하고, 최종적으로 이를 연속적이고 사실적인 비디오 콘텐츠로 재구성합니다.
Latte의 연구개발팀인 상하이 인공지능연구소가 중국중앙라디오텔레비전국과 협력해 왔다는 점은 주목할 만하다.두 사람은 중국 최초의 오리지널 문성 영상 AI 애니메이션 시리즈인 '천년시가'를 공동 제작하여 CCTV-1 종합채널에서 방영했습니다.업계 관계자들은 중국에서 최초로 AI 애니메이션이 출시됨에 따라, 우리나라의 문화 영상 애플리케이션 구현이 가속화될 것으로 예상하며, 이는 앞으로 영화·TV 산업의 제작 과정을 재편하고 영화·TV 애니메이션 제작, 게임 개발, 광고 디자인의 혁명적 발전을 촉진할 것으로 분석했습니다.
이러한 맥락에서, 보다 창의적인 근로자와 비디오 애호가들이 기술 추세를 따라갈 수 있도록 돕기 위해,HyperAI가 "라떼 세계 최초 오픈소스 빈센트 비디오 DiT" 튜토리얼을 출시했습니다.이 튜토리얼은 당신을 위한 환경을 구축했습니다. 더 이상 모델을 다운로드하고 학습할 때까지 기다릴 필요가 없습니다. 복제를 클릭하면 클릭 한 번으로 시작하고, 텍스트를 입력하면 즉시 비디오가 생성됩니다!
튜토리얼 주소:https://hyper.ai/tutorials/32065
편집자는 "선글라스를 쓴 개"라는 텍스트를 사용하여 선글라스를 쓴 강아지의 영상을 만들었습니다. 꽤 잘생겼네요!

데모 실행
1. hyper.ai에 로그인하고 "튜토리얼" 페이지에서 "라떼 월드 최초의 오픈 소스 비닐 비디오 DiT"를 선택하고 "이 튜토리얼을 온라인으로 실행"을 클릭합니다.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. 오른쪽 하단에 있는 "다음: 해시레이트 선택"을 클릭합니다.

4. 이동 후 "NVIDIA GeForce RTX 4090"을 선택하고 "다음: 검토"를 클릭합니다.신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. "계속"을 클릭하고 리소스가 할당될 때까지 기다리세요. 첫 번째 복제 과정은 약 3~5분 정도 걸립니다. 상태가 "실행 중"으로 변경되면 "작업 공간 열기"를 클릭합니다.
문제가 10분 이상 지속되고 "리소스 할당 중" 상태로 남아 있는 경우 컨테이너를 중지했다가 다시 시작해 보세요. 재시작해도 문제가 해결되지 않으면 공식 웹사이트의 플랫폼 고객 서비스에 문의하세요.


6. 작업 공간을 연 후, 왼쪽 메뉴의 경로에 따라 설정 파일 home/Latte/configs/t2v/t2v_sample.yaml을 열고, text_prompt에 prompt "for example: a dog with Sunglasses"를 입력한 후 Ctrl+S를 눌러 저장합니다.


7. 저장 후 새 터미널 페이지를 만들고 "cd Latte"를 입력한 후 Enter를 눌러 "Latte" 디렉토리로 들어갑니다. 고화질 비디오를 생성하려면 "bash sample/t2v.sh"를 입력하세요.



효과 표시
1. 진행률 표시줄에 100%가 표시되면 왼쪽 메뉴 모음 "Latte/sample_videos"를 열고 생성한 비디오를 찾아 마우스 오른쪽 버튼을 클릭하여 다운로드합니다.MP4 비디오는 직접 볼 수 없으므로, 보기 전에 다운로드해야 합니다.


2. 선글라스를 쓴 강아지의 영상이 생성되었습니다!

현재 HyperAI 공식 웹사이트에서는 Jupyter Notebook 형태로 구성된 수백 개의 선택된 머신 러닝 관련 튜토리얼을 출시했습니다.
관련 튜토리얼과 데이터 세트를 검색하려면 링크를 클릭하세요.https://hyper.ai/tutorials
위에 적힌 내용이 이번에 HyperAI Super Neural Network가 공유한 내용의 전부입니다. 고품질 프로젝트를 발견하시면, 배경에 메시지를 남겨서 저희에게 추천해 주세요! 또한, 우리는 "안정 확산 튜토리얼 교환 그룹"도 설립했습니다. 다양한 기술적인 문제를 논의하고 신청 결과를 공유하기 위해 그룹에 가입해 주세요~