17일 전
비디오 인스턴스 세그멘테이션을 위한 일반화된 프레임워크
Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim

초록
긴 영상에서 복잡하고 겹쳐진 시퀀스를 처리하는 문제는 최근 비디오 인스턴스 세그멘테이션(VIS) 분야에서 새로운 도전 과제로 부상하고 있다. 그러나 기존의 방법들은 이 도전 과제를 효과적으로 해결하는 데 한계를 지닌다. 우리는 현재의 접근 방식에서 가장 큰 제약 요소가 학습과 추론 간의 불일치에 있음을 주장한다. 이러한 격차를 효과적으로 극복하기 위해, 복잡한 아키텍처 설계나 추가 후처리가 필요 없이 도전적인 벤치마크에서 최신 기술 수준의 성능을 달성하는 일반화된 VIS 프레임워크인 GenVIS를 제안한다. GenVIS의 핵심 기여는 쿼리 기반의 학습 파이프라인과 새로운 타겟 레이블 할당 방식을 포함한 학습 전략이다. 또한, 이전 상태로부터 정보를 효과적으로 획득할 수 있는 메모리 구조를 도입하였다. 새로운 관점—즉, 별개의 프레임 또는 클립 간의 관계 형성에 초점을 맞춘 접근 방식—덕분에 GenVIS는 온라인 및 반온라인 방식 모두에서 유연하게 실행 가능하다. 제안한 방법을 대표적인 VIS 벤치마크에서 평가한 결과, YouTube-VIS 2019/2021/2022 및 오클루드 VIS(OVIS)에서 최신 기술 수준의 성능을 기록하였다. 특히, 긴 영상 기반 VIS 벤치마크(OVIS)에서 기존 최고 성능을 크게 능가하며, ResNet-50 기반 아키텍처를 사용했을 때 5.6 AP의 성능 향상을 달성하였다. 코드는 https://github.com/miranheo/GenVIS 에서 공개되어 있다.