안정적인 가상 카메라로 몇 초 만에 이미지를 3D 영상으로 변환

1. 튜토리얼 소개
이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.
Stable Virtual Camera(Seva)는 Stability AI가 2025년 3월에 출시한 일반 확산 모델입니다. 관련 논문 결과는 다음과 같습니다.안정적인 가상 카메라: 확산 모델을 사용한 생성적 뷰 합성"
Seva는 입력 뷰와 대상 카메라의 개수에 관계없이 장면의 새로운 뷰를 생성할 수 있습니다. 이 설계는 특정 작업 구성에 의존하지 않으면서도 큰 관점 변화나 시간적으로 매끄러운 샘플을 생성하는 기존 방법의 한계를 극복합니다. 이 모델의 주목할 만한 특징은 추가적인 3D 표현 학습이 필요 없이 높은 수준의 일관된 샘플 생성을 유지할 수 있다는 점입니다. 따라서 실제 응용 프로그램에서 원근 합성 프로세스가 간소화됩니다. 또한, Seva는 최대 30초 길이의 고품질 비디오를 생성하고 원활하게 반복할 수 있습니다. 광범위한 벤치마크 테스트를 통해 Seva가 다양한 데이터 세트와 설정에서 기존 방법보다 우수한 성능을 보인다는 것이 밝혀졌습니다.

2. 작업 단계
1. 컨테이너를 시작하세요
컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다. 모델이 크기 때문에 WebUI 인터페이스를 표시하는 데 약 3분이 소요되며, 그렇지 않으면 "Bad Gateway"가 표시됩니다.

2. 기본 기능
"기본" 인터페이스를 클릭하세요
이 인터페이스 기능은 단일 이미지에 대해 사전 설정된 카메라 궤적 중 하나를 기반으로 비디오를 생성할 수 있습니다.

3. 고급
"기본" 인터페이스를 클릭하세요
이 인터페이스를 사용하면 키프레임 기반 인터페이스를 통해 원하는 수의 입력 이미지가 주어지면 원하는 카메라 궤적의 비디오를 생성할 수 있습니다.

이미지를 업로드한 후 확인을 클릭하세요.

'이미지 처리'를 클릭하고 이미지가 처리될 때까지 기다리세요.

키프레임 추가를 클릭하여 키프레임을 추가합니다.

비디오를 생성하려면 클릭하세요

3. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
