2달 전

UniVS: 프롬프트를 쿼리로 사용한 통합적이고 보편적인 비디오 세그멘테이션

Minghan Li; Shuai Li; Xindong Zhang; Lei Zhang
UniVS: 프롬프트를 쿼리로 사용한 통합적이고 보편적인 비디오 세그멘테이션
초록

최근 통합 이미지 분할(IS) 분야에서 많은 발전이 이루어졌지만, 통합 비디오 분할(VS) 모델 개발은 여전히 도전과제입니다. 이는 일반적으로 범주 지정 VS 작업이 모든 객체를 감지하고 연속 프레임 간에 추적해야 하는 반면, 프롬프트 안내형 VS 작업은 전체 비디오에 걸쳐 시각적/텍스트 프롬프트를 사용하여 대상의 재식별이 필요하기 때문입니다. 이러한 문제들을 해결하기 위해 우리는 프롬프트를 쿼리로 사용하는 새로운 통합 VS 아키텍처인 UniVS를 제시합니다.UniVS는 이전 프레임에서 대상의 프롬프트 특성을 평균화하여 초기 쿼리로 사용하여 마스크를 명시적으로 디코딩합니다. 또한 마스크 디코더에 대상별 프롬프트 크로스 어텐션 레이어를 도입하여 메모리 풀 내의 프롬프트 특성을 통합합니다. 이전 프레임에서 예측된 엔티티의 마스크를 시각적 프롬프트로 사용함으로써, UniVS는 다양한 VS 작업을 프롬프트 안내형 대상 분할로 전환하여 직관적인 프레임 간 매칭 과정을 제거합니다.우리의 프레임워크는 다양한 VS 작업을 통합하는 것뿐만 아니라, 자연스럽게 보편적인 학습과 테스트를 달성하며, 다양한 상황에서 견고한 성능을 보장합니다. UniVS는 비디오 인스턴스, 의미론적, 팬오 若要保持正式和客观的风格,最后一句可以修改为:UniVS는 10개의 도전적인 VS 벤치마크에서 비디오 인스턴스, 의미론적, 팬옵틱, 객체 및 참조 분할 작업을 포함하여 성능과 보편성 사이에서 균형 잡힌 결과를 보여줍니다. 코드는 \url{https://github.com/MinghanLi/UniVS}에서 확인할 수 있습니다.

UniVS: 프롬프트를 쿼리로 사용한 통합적이고 보편적인 비디오 세그멘테이션 | 최신 연구 논문 | HyperAI초신경