2달 전

SafaRi: 약한 지도 하에서의 참조 표현 분할을 위한 적응형 시퀀스 트랜스포머

Sayan Nag; Koustava Goswami; Srikrishna Karanam
SafaRi: 약한 지도 하에서의 참조 표현 분할을 위한 적응형 시퀀스 트랜스포머
초록

참조 표현 분할(Referring Expression Segmentation, RES)은 텍스트(즉, 참조 표현)으로 지정된 이미지 내의 대상 객체에 대한 분할 마스크를 제공하는 것을 목표로 합니다. 기존 방법들은 대규모 마스크 주석이 필요합니다. 또한 이러한 접근 방식은 미확인/제로샷(zero-shot) 시나리오에서 잘 일반화되지 않습니다. 이러한 문제들을 해결하기 위해, 우리는 여러 새로운 알고리즘 혁신을 포함한 약간의 감독을 받는 부트스트랩 아키텍처를 제안합니다. 최선의 지식에 따르면, 우리의 접근 방식은 훈련을 위해 마스크와 박스 주석의 일부만 고려하는 첫 번째 방법입니다(그림 1 및 표 1 참조). 이러한 저주석 설정에서 모델의 원칙적인 훈련을 가능하게 하며, 이미지-텍스트 지역 수준 정렬을 개선하고, 이미지 내 대상 객체의 공간적 위치를 더욱 강화하기 위해 우리는 주목 일관성 모듈을 사용한 교차 모달 융합(Cross-modal Fusion with Attention Consistency)을 제안합니다. 라벨이 없는 샘플들의 자동 의사라벨링(pseudo-labeling)을 위해, 우리는 공간 인식 제로샷 제안 점수화 접근 방식에 기반한 새로운 마스크 유효성 필터링 루틴(Mask Validity Filtering)을 소개합니다. 광범위한 실험 결과, SafaRi 모델은 RefCOCO+@testA 데이터셋에서 30% 주석만으로도 완전히 감독받는 최고 성능(SeqTR) 방법과 비교해 59.31 대 58.93 mIoU, RefCOCO+testB 데이터셋에서는 48.26 대 48.19 mIoU를 달성했습니다. SafaRi는 완전히 감독받는 설정에서도 RefCOCO+@testA 데이터셋에서 SeqTR보다 11.7%, RefCOCO+testB 데이터셋에서는 19.6% 우수한 성능을 보였으며, 미확인/제로샷(zero-shot) 작업에서 강력한 일반화 능력을 입증하였습니다.

SafaRi: 약한 지도 하에서의 참조 표현 분할을 위한 적응형 시퀀스 트랜스포머 | 최신 연구 논문 | HyperAI초신경