온라인 튜토리얼: 베이징대학교 Shi Boxin 팀과 베이지안 컴퓨팅은 여러 성능 지표가 SOTA에 도달하는 비디오 인스턴스 재그리기 방법 VIRES를 제안했습니다.

비디오도 포토샵으로 편집할 수 있나요?
아시다시피 비디오 편집은 매우 어렵습니다. 피사체를 조정하거나 교체하고, 장면이나 색상을 변경하고, 객체를 제거하고 싶다면이는 종종 수작업으로 주석을 달고, 마스크 페인팅을 하고, 수많은 프레임에 대한 세심한 색상 등급을 지정하는 것을 의미합니다.숙련된 후반 작업팀조차도 복잡한 장면의 콘텐츠를 편집할 때 시간적 일관성을 유지하는 데 어려움을 겪습니다. 최근 몇 년 동안 생성 AI의 급속한 발전으로 "원클릭 제거"와 같은 기능이 다양한 편집 소프트웨어에 점차 등장하면서 사람들은 비디오 편집에서 AI의 엄청난 잠재력을 깨닫게 되었습니다.
실제로 실제 적용에서는 "획일적인" 제거 기능 외에도 피사체를 대체하고 추가하는 기능이 더 자주 사용되고 더 어려운데, 이는 더 정확한 대상 인식, 분할 및 비디오 생성을 수반합니다. 그러나 현재의 AI 방식은 복잡한 장면에서 이러한 비디오 재작성 작업을 처리하는 데 여전히 어려움을 겪고 있습니다. 예를 들어,현재의 많은 제로샷 방식은 연속적인 비디오 프레임을 처리할 때 화면 깜박임 현상이 발생하기 쉽습니다. 복잡한 배경이나 여러 대상이 있는 장면의 경우 정렬 불량, 흐릿함 또는 의미적 편차가 발생할 수 있습니다.
이에 대응하여, 베이징대학교 카메라 지능 연구실(시복신 팀)은 OpenBayes 베이지안 컴퓨팅 및 베이징우편대학 인공지능학원 패턴 인식 연구실의 리 스 부교수 팀과 협력했습니다.그들은 스케치와 텍스트 가이드를 결합한 VIRES라는 비디오 예시 재그리기 방법을 공동으로 제안했습니다.비디오 본문을 다시 그리거나, 바꾸거나, 생성하거나, 제거하는 등 다양한 편집 작업을 지원합니다.
이 방법은 텍스트-비디오 모델에 대한 사전 지식을 활용하여 시간적 일관성을 보장하고, 표준화된 적응형 스케일링 메커니즘을 갖춘 순차적 제어망(Sequential ControlNet)을 제안합니다. 이 메커니즘은 구조적 레이아웃을 효과적으로 추출하고 고대비 스케치 세부 정보를 적응적으로 캡처할 수 있습니다. 또한, 연구팀은 DiT(확산 변환기) 백본에 스케치 어텐션 메커니즘을 도입하여 세밀한 스케치 의미론을 해석하고 주입했습니다. 실험 결과는 다음과 같습니다.VIRES는 비디오 품질, 시간적 일관성, 조건부 정렬, 사용자 평가를 포함한 여러 측면에서 기존 SOTA 모델보다 우수한 성능을 보입니다.

관련 연구의 제목은 "VIRES: 스케치와 텍스트 기반 생성을 통한 비디오 인스턴스 재페인팅"이며 CVPR 2025에 선정되었습니다.
현재 HyperAI 공식 웹사이트(hyper.ai) 튜토리얼 섹션에 "VIRES: 스케치와 텍스트 듀얼 가이드 비디오 리드로잉"이 출시되었습니다. 클릭 한 번으로 온라인에서 고품질 비디오 편집 기능을 체험해 보세요. 맞춤형 인스턴스 생성을 예로 들면, 저자는 야외 눈밭에서 달리는 코기 강아지를 추가했는데, 생동감 넘치고 거침없는 모습이 전혀 보이지 않습니다. ⬇️
튜토리얼 링크:https://go.hyper.ai/49koQ
신규 가입 사용자를 위한 깜짝 혜택도 준비했습니다. OpenBayes 플랫폼에 가입하려면 초대 코드 "VIRES"를 사용하세요.RTX A6000을 4시간 동안 무료로 사용할 수 있습니다(리소스는 1개월 동안 유효합니다).수량 한정, 선착순으로 제공됩니다!
데모 실행
1. hyper.ai 홈페이지에 접속한 후, "튜토리얼" 페이지를 선택하고, "VIRES: 스케치와 텍스트 듀얼 가이드를 사용한 비디오 다시 그리기"를 선택한 후, "이 튜토리얼을 온라인으로 실행"을 클릭하세요.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA RTX A6000" 및 "PyTorch" 이미지를 선택하세요. OpenBayes 플랫폼은 4가지 결제 방식을 제공합니다. 필요에 따라 "종량제" 또는 "일일/주간/월간" 결제 방식을 선택할 수 있습니다. "계속"을 클릭하세요. 신규 사용자는 아래 초대 링크를 통해 등록하시면 RTX 4090 4시간 + CPU 무료 사용 시간 5시간을 이용하실 수 있습니다!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. 모델이 크기 때문에 WebUI 인터페이스를 표시하는 데 약 3분이 걸리며, 그렇지 않으면 "잘못된 게이트웨이"가 표시됩니다. API 주소 접근 기능을 이용하기 위해서는 이용자가 실명인증을 완료해야 합니다.

효과 시연
아래 그림과 같이 API 주소를 클릭하면 모델을 직접 체험해 보실 수 있습니다. 튜토리얼에 다양한 예시가 준비되어 있으니, 직접 경험해 보세요!

"사용자 정의 인스턴스 생성"을 예로 들면, 저자는 야외 눈 속에서 달리는 웰시코기를 추가했는데, 생동감 넘치고 불순종하는 느낌이 전혀 없습니다!
* 원본 영상:
* 효과 생성:
* 즉각적인:
이 영상은 눈 덮인 공원에서 코기 강아지가 즐겁게 뛰어다니는 사랑스러운 장면을 담고 있습니다. 공원은 나무와 놀이터로 꾸며져 있어 그림 같은 겨울 분위기를 자아냅니다. 주황색과 흰색 털, 그리고 표정이 풍부한 눈을 가진 코기는 카메라를 향해 왔다가 멀어지기를 반복하며 발로 눈을 차올리고 장난기 넘치는 모습을 보여줍니다. 영상은 코기의 움직임을 세밀하게 포착하여, 눈밭에서 뛰어노는 코기의 밝은 눈, 근육질의 다리, 그리고 민첩한 모습에 초점을 맞춥니다. 제작자는 아름다운 눈 덮인 풍경 속에서 사랑하는 반려동물의 기쁨과 활기를 보여주는 따뜻하고 시각적으로 매력적인 순간을 공유하고자 했을 것입니다.
위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!
튜토리얼 링크:https://go.hyper.ai/49koQ