HyperAI초신경

튜토리얼 소개

코스모스 월드 베이스 모델은 엔비디아가 2025년에 출시했습니다. 이 모델은 물리적 AI 개발자 커뮤니티에 공개되었으며, 수백만 시간의 주행 및 로봇 비디오 데이터로 훈련된 고급 모델입니다.

이 모델 시리즈는 개발자가 차세대 로봇과 자율주행차(AV)를 구축하는 데 도움이 되는 가상 환경의 미래 상태를 물리적으로 인식하는 비디오를 예측하고 생성할 수 있는 신경망입니다.

대규모 언어 모델과 마찬가지로 세계 기본 모델(WFM)은 기본 모델 클래스에 속합니다. 이러한 모델은 텍스트, 이미지, 비디오, 모션 등의 입력 데이터를 사용하여 가상 세계를 생성하고 시뮬레이션함으로써 장면 내 객체의 공간적 관계와 물리적 상호 작용을 정확하게 시뮬레이션합니다.

CES 2025에서 NVIDIA는 고급 토크나이저, 가드레일, 가속 데이터 처리 및 관리 워크플로, 모델 사용자 정의 및 최적화 프레임워크를 갖춘 물리 기반 시뮬레이션 및 합성 데이터 생성을 위한 최초의 Cosmos 세계 기반 모델을 공개했습니다.

코스모스 세계 기반 모델은 물리학 기반 비디오 생성을 위한 개방형 확산 및 자기회귀 변환기 모델 세트입니다. 이러한 모델은 2,000만 시간의 실제 인간 상호작용, 환경, 산업, 로봇 및 운전 데이터를 기반으로 900조 개의 토큰을 통해 학습되었습니다. 이 범주에 속하는 모델은 세 가지 범주로 구분됩니다. 실시간, 저지연 추론 및 에지 배포에 최적화된 모델을 위한 나노; 고성능 기준 모델의 경우 Super; 그리고 Ultra는 맞춤형 모델을 증류하는 데 적합한 높은 품질과 충실도를 갖추고 있습니다.

관련 블로그는 다음과 같습니다.CES 2025 | NVIDIA, 물리 AI 개발자 커뮤니티에 Cosmos World Foundation 모델 공개".

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示，由于模型较大，所以需要使用 A6000 启动。

실행 방법 (컨테이너 시작 후 초기화까지 약 15초 소요, 이후 다음 작업 수행)

1. 컨테이너를 복제하고 시작한 후

작업 공간 열기 > 터미널 열기

2. 다음 명령을 입력하여 환경을 활성화합니다.

conda activate ./cosmos

3. 다음 명령을 입력하여 Cosmos 디렉토리로 전환합니다.

cd Cosmos

4. 다음 명령을 입력하여 모델 그라디오 인터페이스를 시작합니다.

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

포트 8080이 나타나면 오른쪽의 API 주소를 열어 gradio 인터페이스에 접속합니다.

비디오 생성

그라디오 인터페이스에 들어간 후 "프롬프트 입력"에 프롬프트 단어를 입력하고 "제출"을 클릭하면 추론이 수행됩니다. 몇 분간 기다리면 생성된 비디오를 볼 수 있습니다.

（参考时间：使用 A6000 生成一段 5s 的视频约需要 30 分钟，生成视频时长默认为 5s，不可更改）

토론 및 교류

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔 및 [튜토리얼 교환]에 댓글을 남겨 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

코스모스 월드 기본 모델의 원클릭 배포

튜토리얼 소개