2달 전

事전 학습된 시각-언어 모델을 이용한 개방형 어휘 의미 분할의 간단한 기준선

Mengde Xu; Zheng Zhang; Fangyun Wei; Yutong Lin; Yue Cao; Han Hu; Xiang Bai
事전 학습된 시각-언어 모델을 이용한 개방형 어휘 의미 분할의 간단한 기준선
초록

최근, 비전 언어 사전 학습을 통한 개방형 어휘 이미지 분류가 해당 카테고리의 추가 주석이 있는 이미지를 보지 않고도 임의의 카테고리를 분류할 수 있다는 놀라운 성과를 보여주었습니다. 그러나 여전히 개방형 어휘 인식이 더 넓은 시각 문제에서 잘 작동하는 방법에 대해서는 명확하지 않습니다. 본 논문에서는 오프더셀프 사전 학습된 비전-언어 모델인 CLIP을 기반으로 개방형 어휘 의미 분할을 수행하는 방법을 제안합니다. 그러나 의미 분할과 CLIP 모델은 서로 다른 시각적 세부 단위에서 작동합니다. 즉, 의미 분할은 픽셀 단위로 처리하는 반면 CLIP은 이미지 단위로 처리합니다. 이러한 처리 세부 단위의 불일치를 해결하기 위해, 우리는 일반적으로 사용되는 한 단계 FCN 기반 프레임워크를 사용하지 않고, 두 단계 의미 분할 프레임워크를 제안합니다. 첫 번째 단계에서는 일반화 가능한 마스크 제안을 추출하고, 두 번째 단계에서는 첫 번째 단계에서 생성된 마스킹된 이미지 조각에 대해 CLIP 모델을 활용하여 개방형 어휘 분류를 수행합니다. 실험 결과, 이 두 단계 프레임워크는 COCO Stuff 데이터셋만으로 훈련되었지만 다른 데이터셋에서 미세 조정 없이 FCN보다 우수한 성능을 보였습니다. 또한 이 간단한 프레임워크는 Pascal VOC 2012 데이터셋에서 +29.5 hIoU, COCO Stuff 데이터셋에서 +8.9 hIoU로 기존의 제로샷(zero-shot) 의미 분할 연구들보다 크게 앞섰습니다. 그 간단함과 강력한 성능 덕분에, 우리는 이 프레임워크가 미래 연구를 촉진하는 베이스라인으로 활용되기를 바랍니다. 코드는 공개적으로 제공됩니다(~\url{https://github.com/MendelXu/zsseg.baseline}).

事전 학습된 시각-언어 모델을 이용한 개방형 어휘 의미 분할의 간단한 기준선 | 최신 연구 논문 | HyperAI초신경