17일 전

InstanceFormer: 온라인 영상 인스턴스 세그멘테이션 프레임워크

Rajat Koner, Tanveer Hannan, Suprosanna Shit, Sahand Sharifzadeh, Matthias Schubert, Thomas Seidl, Volker Tresp
InstanceFormer: 온라인 영상 인스턴스 세그멘테이션 프레임워크
초록

최근의 트랜스포머 기반 오프라인 비디오 인스턴스 세그멘테이션(VIS) 기법들은 유의미한 성과를 달성하며 온라인 방법을 크게 능가하고 있다. 그러나 이러한 방법들은 전체 비디오에 의존하며, 전반적인 공간-시간 주의(attention) 구조로 인해 막대한 계산 복잡도를 초래함으로써 긴 길이의 비디오를 처리하는 실생활 응용 분야에서 한계를 보이고 있다. 본 논문에서는 긴 비디오 및 어려운 씬에 특히 적합한 단계형 트랜스포머 기반 효율적인 온라인 VIS 프레임워크인 InstanceFormer을 제안한다. 본 연구는 단기 및 장기 의존성과 시계열 일관성을 모델링하기 위해 세 가지 새로운 구성 요소를 도입한다. 첫째, 이전 인스턴스의 표현, 위치, 의미 정보를 전파함으로써 단기적인 변화를 모델링한다. 둘째, 디코더 내에 새로운 메모리 크로스-어텐션 구조를 제안하여, 네트워크가 일정 시간 창 내의 과거 인스턴스를 참조할 수 있도록 한다. 셋째, 모든 프레임에 걸쳐 인스턴스 표현의 일관성을 강제하기 위해 시간적 대조 손실(temporal contrastive loss)을 도입한다. 메모리 어텐션과 시간적 일관성은 특히 오버랩, 가림 등의 어려운 시나리오를 포함한 장거리 의존성 모델링에 매우 유리하다. 제안된 InstanceFormer은 여러 데이터셋에서 기존의 온라인 기준 방법들을 크게 앞서며 성능을 뛰어넘었다. 특히 중요한 점은, YouTube-VIS-2021 및 OVIS와 같은 어려운 긴 데이터셋에서 오프라인 방법을도 초월했다는 것이다. 코드는 https://github.com/rajatkoner08/InstanceFormer 에서 공개되어 있다.