2달 전

Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation에 대한 변호

Dahyun Kang; Minsu Cho
Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation에 대한 변호
초록

우리는 오픈-보카블러리 의미 분할을 위한 게으른 시각적 지칭(lazy visual grounding)을 제시합니다. 이 방법은 감독되지 않은 객체 마스크 발견과 객체 지칭의 두 단계로 구성됩니다. 이전 연구들은 대부분 이 작업을 객체 수준의 이해 없이 픽셀-텍스트 분류로 설정하여, 사전 학습된 시각-언어 모델의 이미지-텍스트 분류 능력을 활용하였습니다. 우리는 시각적 객체가 본질적으로 시각적인 작업인 분할에 앞서 텍스트 정보가 필요하지 않다고 주장합니다. 게으른 시각적 지칭은 반복적인 정규화된 컷(Normalized cuts)을 통해 이미지를 덮는 객체 마스크를 먼저 발견한 후, 나중에 발견된 객체에 텍스트를 할당하는 후기 상호작용 방식으로 진행됩니다. 우리의 모델은 추가적인 학습이 필요하지 않지만, 파스칼 VOC, 파스칼 콘텍스트, COCO-object, COCO-stuff, ADE 20K 등 다섯 개의 공개 데이터셋에서 뛰어난 성능을 보입니다. 특히, 시각적으로 매력적인 분할 결과는 모델이 객체를 정확히 위치시키는 능력을 입증합니다. 논문 홈페이지: https://cvlab.postech.ac.kr/research/lazygrounding

Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation에 대한 변호 | 최신 연구 논문 | HyperAI초신경