17일 전
STC: 비디오 인스턴스 세그멘테이션을 위한 시공간 대비 학습
Zhengkai Jiang, Zhangxuan Gu, Jinlong Peng, Hang Zhou, Liang Liu, Yabiao Wang, Ying Tai, Chengjie Wang, Liqing Zhang

초록
비디오 인스턴스 세그멘테이션(VIS)은 비디오에서 분류, 세그멘테이션 및 인스턴스 연관을 동시에 수행해야 하는 과제이다. 최근의 VIS 접근 방식은 RoI 기반 연산이나 3D 컨볼루션을 포함하는 복잡한 파이프라인에 의존하고 있다. 반면에, 우리는 CondInst라는 인스턴스 세그멘테이션 기법을 기반으로 하여 추가적인 추적 헤드를 도입함으로써 간단하고 효율적인 단계별(VIS) 프레임워크를 제안한다. 인스턴스 연관 정확도를 향상시키기 위해, 프레임 간 추적 임베딩에 대한 새로운 양방향 시공간 대비 학습 전략을 제안한다. 더불어, 시간적으로 일관된 결과를 생성하기 위해 인스턴스별 시간적 일관성 방식을 활용한다. YouTube-VIS-2019, YouTube-VIS-2021, OVIS-2021 데이터셋에서 수행된 실험을 통해 제안된 방법의 효과성과 효율성을 입증하였다. 본 연구에서 제안하는 프레임워크가 다른 다양한 인스턴스 수준의 비디오 연관 과제에 대해 간단하면서도 강력한 대안이 되길 기대한다.