UniRef++: 공간적 및 시간적 공간에서 모든 참조 객체 세그먼트화

기준 기반 개체 세그멘테이션 작업, 즉 언어적 참조를 이용한 이미지 세그멘테이션(RIS), 소수 샘플 기반 이미지 세그멘테이션(FSS), 언어 기반 영상 개체 세그멘테이션(RVOS), 그리고 영상 개체 세그멘테이션(VOS)은 언어 또는 애너테이션 마스크를 기준으로 특정 개체를 세그멘테이션하는 것을 목표로 한다. 각 분야에서 상당한 진전이 있었음에도 불구하고, 기존의 방법들은 각각의 작업에 특화되어 있으며 서로 다른 방향으로 개발되어 와, 이러한 작업들 간의 다중 작업 능력의 발현을 방해하고 있다. 본 연구에서는 이러한 분산된 상황을 종식하고, 단일 아키텍처를 통해 네 가지 기준 기반 개체 세그멘테이션 작업을 통합하는 UniRef++를 제안한다. 본 연구의 핵심은 각 작업에 맞춰 다양한 참조를 처리하기 위해 다방향 융합을 수행하는 UniFusion 모듈이다. 이에 더해, 개체 수준의 세그멘테이션을 달성하기 위해 통합된 Transformer 아키텍처를 도입하였다. 통합된 설계 덕분에 UniRef++는 다양한 벤치마크에서 공동 학습이 가능하며, 실행 시 해당 참조를 지정함으로써 유연하게 다수의 작업을 수행할 수 있다. 제안된 모델은 다양한 벤치마크에서 평가되었으며, 광범위한 실험 결과는 UniRef++가 RIS 및 RVOS에서 최신 기술 수준의 성능을 달성함을 보여주며, 파라미터 공유 네트워크를 통해 FSS 및 VOS에서도 경쟁력 있는 성능을 발휘함을 확인하였다. 또한, 제안된 UniFusion 모듈이 현재 최신 기반 모델인 SAM(Segment Anything Model)에 쉽게 통합될 수 있으며, 파라미터 효율적인 파인튜닝을 통해 만족스러운 성능을 얻을 수 있음을 보여주었다. 코드 및 모델은 \url{https://github.com/FoundationVision/UniRef}에서 제공된다.