3달 전
공간적 및 시간적 공간 내 모든 참조 객체 세그먼트화
{Ping Luo, Zehuan Yuan, Huchuan Lu, Bin Yan, Yi Jiang, Jiannan Wu}

초록
기준 기반 객체 세그멘테이션 작업, 즉 언어적 참조를 이용한 이미지 세그멘테이션(RIS), 언어적 참조를 이용한 영상 객체 세그멘테이션(RVOS), 그리고 영상 객체 세그멘테이션(VOS)은 언어 또는 레이블링된 마스크를 기준으로 특정 객체를 세그멘테이션하는 것을 목표로 한다. 각각의 분야에서 상당한 진전이 이루어졌음에도 불구하고, 기존의 방법들은 각각의 작업에 특화되어 독립적으로 설계되고 개발되어 와, 이러한 작업들 간의 다중 작업 능력의 활성화를 저해해 왔다. 본 연구에서는 이러한 분절된 상태를 종식하고, 단일 아키텍처로 세 가지 기준 기반 객체 세그멘테이션 작업을 통합하는 UniRef를 제안한다. 본 연구의 핵심은 각 작업에 맞춰 지정된 참조를 처리하기 위한 멀티웨이 퓨전(multiway-fusion) 기법에 있다. 이를 바탕으로 통합된 Transformer 아키텍처를 도입하여 인스턴스 수준의 세그멘테이션을 수행한다. 통합된 설계를 통해 UniRef는 다양한 벤치마크에서 공동 학습이 가능하며, 런타임 시 해당 참조를 지정함으로써 유연하게 여러 작업을 수행할 수 있다. 제안된 UniRef는 다양한 벤치마크에서 공동 학습된 네트워크를 평가한 결과, RIS와 RVOS에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, 단일 네트워크로 VOS에서도 경쟁적인 성능을 보였다.