17일 전
SeqFormer: 비디오 인스턴스 세그멘테이션을 위한 순차적 트랜스포머
Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai

초록
본 연구에서는 영상 인스턴스 세그멘테이션을 위한 SeqFormer을 제안한다. SeqFormer은 비전 트랜스포머의 원칙을 따르며, 영상 프레임 간의 인스턴스 관계를 모델링한다. 그러나 우리는 단독의 인스턴스 쿼리만으로도 영상의 시간적 인스턴스 시퀀스를 충분히 포착할 수 있음을 관찰하였으며, 주의 메커니즘은 각 프레임별로 독립적으로 수행되어야 함을 확인하였다. 이를 달성하기 위해 SeqFormer은 각 프레임 내에서 인스턴스를 위치시키고, 시간 정보를 집계하여 영상 수준의 인스턴스에 대한 강력한 표현을 학습한다. 이 표현은 각 프레임에 대해 마스크 시퀀스를 동적으로 예측하는 데 사용된다. 추적 브랜치나 후처리 과정 없이도 자연스럽게 인스턴스 추적을 달성할 수 있다. YouTube-VIS 데이터셋에서 SeqFormer은 ResNet-50 기반으로 47.4 AP, ResNet-101 기반으로 49.0 AP를 달성하였으며, 특수 기능 없이도 이전 최고 성능을 각각 4.6, 4.4 포인트 이상 상회한다. 또한 최근 제안된 Swin 트랜스포머와 통합하면, 더욱 높은 59.3 AP를 기록한다. 우리는 SeqFormer이 영상 인스턴스 세그멘테이션 분야의 강력한 기준 모델이 되어 향후 연구를 촉진하고, 동시에 더 견고하고 정확하며 간결한 모델로 이 분야를 발전시킬 수 있기를 기대한다. 코드는 https://github.com/wjf5203/SeqFormer 에서 공개되어 있다.