11일 전
PolyFormer: 순차 다각형 생성으로서 참조 이미지 세그멘테이션
Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha

초록
이 연구에서는 픽셀 단위의 세그멘테이션 마스크를 직접 예측하는 대신, 참조 이미지 세그멘테이션 문제를 순차적인 다각형 생성 문제로 재정의한다. 예측된 다각형은 나중에 세그멘테이션 마스크로 변환될 수 있다. 이는 이미지 패치 시퀀스와 텍스트 쿼리 토큰을 입력으로 받아, 자동 회귀적으로 다각형의 꼭짓점 시퀀스를 출력하는 새로운 시퀀스-투-시퀀스 프레임워크인 Polygon Transformer(PolyFormer)를 통해 가능해졌다. 보다 정밀한 기하학적 위치 추정을 위해, 좌표 양자화 오류 없이 직접 정밀한 부동소수점 좌표를 예측하는 회귀 기반 디코더를 제안한다. 실험 결과, PolyFormer은 기존 기법보다 명확한 성능 우위를 보였으며, 도전적인 RefCOCO+ 및 RefCOCOg 데이터셋에서 각각 5.40%, 4.52%의 절대적인 성능 향상을 기록했다. 또한, 미세 조정 없이 참조 영상 세그멘테이션 작업에 평가되었을 때도 강한 일반화 능력을 보였으며, Ref-DAVIS17 데이터셋에서 경쟁력 있는 61.5%의 J&F 점수를 달성하였다.