
참조 표현 분할(Referring Expression Segmentation, RES)은 주어진 언어 표현으로 설명된 객체에 대한 분할 마스크를 생성하는 것을 목표로 합니다. 기존의 전통적인 RES 데이터셋과 방법들은 일반적으로 단일 대상 표현만을 지원하며, 즉 하나의 표현이 하나의 대상 객체만을 참조합니다. 다중 대상 및 무대상 표현은 고려되지 않았습니다. 이는 실용적인 RES 사용에 제약을 가합니다. 본 논문에서는 이러한 한계를 극복하기 위해 전통적인 RES를 확장하여 임의의 수의 대상 객체를 참조할 수 있는 새로운 벤치마크인 일반화된 참조 표현 분할(Generalized Referring Expression Segmentation, GRES)을 소개합니다.GRES와 gRefCOCO는 기존 RES와 호환성을 유지하도록 설계되어 있어, 기존 RES 방법들의 GRES 작업 성능 차이를 연구하기 위한 광범위한 실험을 용이하게 합니다. 실험 연구를 통해 GRES의 큰 도전 중 하나가 복잡한 관계 모델링임을 발견하였습니다. 이를 바탕으로, 이미지를 하위 인스턴스 힌트를 포함하는 영역으로 적응적으로 나누고, 영역-영역 및 영역-언어 의존성을 명시적으로 모델링하는 영역 기반 GRES 베이스라인인 ReLA(Region-based Language Adaptation)를 제안합니다. 제안된 접근 방식인 ReLA는 새롭게 제안된 GRES와 전통적인 RES 작업 모두에서 최신 최고 성능을 달성하였습니다.제안된 gRefCOCO 데이터셋과 방법은 https://henghuiding.github.io/GRES에서 이용 가능합니다.