
초록
본 논문에서는 기존의 대부분의 접근 방식이 더 긴 학습 시간과 더 높은 GPU 요구 사양을 감수하면서 보다 정교한 프레임워크를 구축함으로써 더 정확한 인스턴스 세그멘테이션 모델을 추구하는 것과는 달리, 최소한의 학습 시간과 GPU 자원을 사용하여 강력한 인스턴스 세그멘테이션 모델을 구축하는 방법을 탐구한다. 이를 달성하기 위해, 기존의 모든 DETR 기반 객체 탐지 모델을 강력한 인스턴스 세그멘테이션 모델로 전환할 수 있는 간단하고 일반적인 프레임워크인 Mask Frozen-DETR를 제안한다. 본 방법은 고정된(DETR 기반) 객체 탐지기로부터 제공된 경계 상자 내에서 인스턴스 마스크를 예측하는 추가적인 가벼운 마스크 네트워크만을 학습하면 된다. 주목할 만한 점은, COCO test-dev 분할에서 최신 기술 수준의 인스턴스 세그멘테이션 방법인 Mask DINO보다 성능이 뛰어나(55.3% 대 54.7%) 동시에 학습 속도가 10배 이상 빠르다는 것이다. 더불어 본 연구에서 수행한 모든 실험은 메모리 용량 16GB의 단일 Tesla V100 GPU만으로도 가능함을 보여주며, 제안하는 프레임워크의 뛰어난 효율성을 입증한다.