HyperAI초신경

VIRES: 스케치와 텍스트가 결합된 듀얼 가이드 비디오 리드로잉

1. 튜토리얼 소개

짓다

VIRES는 스케치와 텍스트 안내를 결합한 비디오 인스턴스 재그리기 방법으로, 2025년 베이징대학교 카메라 인텔리전스 연구실(시바이신 팀)과 OpenBayes 베이지안 컴퓨팅, 베이징우편통신대학교 인공지능학원 패턴 인식 연구실의 리 시 부교수 팀이 공동으로 제안했습니다. 이 방법은 비디오 피사체의 재그리기, 교체, 생성, 제거와 같은 다양한 편집 작업을 지원합니다. 이 방법은 시간적 일관성을 보장하기 위해 텍스트 생성 비디오 모델에 대한 사전 지식을 사용합니다. 또한 표준화된 적응형 스케일링 메커니즘을 갖춘 순차적 제어망을 제안하는데, 이는 구조적 레이아웃을 효과적으로 추출하고 고대비 스케치 세부 정보를 적응적으로 캡처할 수 있습니다. 나아가 연구팀은 DiT(확산 변환기) 백본에 스케치 어텐션 메커니즘을 도입하여 세밀한 스케치 의미론을 해석하고 주입했습니다. 실험 결과에 따르면 VIRES는 비디오 품질, 시간적 일관성, 조건부 정렬, 사용자 평가 등 여러 측면에서 기존 SOTA 모델보다 성능이 뛰어난 것으로 나타났습니다.

관련 연구는 다음을 기반으로 합니다.VIRES: 스케치 및 텍스트 기반 생성을 통한 비디오 인스턴스 재페인팅"가 CVPR 2025에 선정되었습니다.

이 튜토리얼에서는 단일 카드 A6000에 대한 리소스를 사용합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다. 

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

사용 방법 

매개변수 설명:

  • CFG 안내 척도: 무조건적인 안내 강도.
  • 샘플링 단계 수: 샘플링 단계 수.
  • 시작 프레임: 시작 프레임을 편집합니다.

인용 정보

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}