인스턴스를 쿼리로 사용하기

최근 들어, 쿼리 기반 객체 탐지 프레임워크는 이전의 최고 성능 객체 탐지기와 비교할 만한 성능을 달성하고 있다. 그러나 이러한 프레임워크를 활용하여 인스턴스 세그멘테이션을 효과적으로 수행하는 방법은 여전히 해결되지 않은 과제이다. 본 논문에서는 동적 마스크 헤드에 대한 병렬 감독을 기반으로 하는 쿼리 기반 인스턴스 세그멘테이션 방법인 QueryInst(Instances as Queries)를 제안한다. QueryInst의 핵심 아이디어는 서로 다른 단계 간 객체 쿼리 간의 내재적인 일대일 대응 관계, 그리고 동일 단계 내에서 마스크 RoI 특징과 객체 쿼리 간의 일대일 대응 관계를 활용하는 것이다. 이 접근법은 비쿼리 기반 다단계 인스턴스 세그멘테이션 방법에서 발생하는 명시적인 다단계 마스크 헤드 연결 및 제안 분포 불일치 문제를 제거한다. 우리는 COCO, CityScapes, YouTube-VIS의 세 가지 도전적인 벤치마크에서 광범위한 실험을 수행하여 QueryInst의 인스턴스 세그멘테이션 및 비디오 인스턴스 세그멘테이션(VIS) 작업에서의 효과를 평가하였다. 구체적으로, ResNet-101-FPN 백본을 사용할 때 QueryInst는 COCO test-dev에서 박스 AP 48.1, 마스크 AP 42.8을 달성하여 박스 AP와 마스크 AP 모두에서 HTC보다 각각 2포인트 높은 성능을 기록하면서도, 실행 속도는 2.4배 빠르다. 비디오 인스턴스 세그멘테이션 측면에서는 QueryInst는 모든 온라인 VIS 접근법 중에서 최고의 성능을 기록하며, 적절한 속도-정확도 균형을 달성하였다. 코드는 \url{https://github.com/hustvl/QueryInst}에서 제공된다.