2달 전

대조적 시각-언어 모델에서의 지각 그룹화

Kanchana Ranasinghe; Brandon McKinzie; Sachin Ravi; Yinfei Yang; Alexander Toshev; Jonathon Shlens
대조적 시각-언어 모델에서의 지각 그룹화
초록

최근 제로샷 이미지 인식 분야의 발전은 비전-언어 모델이 자연어 문구로 임의로 탐색할 수 있는 높은 수준의 의미 정보를 포함하는 일반적인 시각적 표현을 학습한다는 것을 시사합니다. 그러나 이미지를 이해하는 것은 단순히 이미지 내에 어떤 내용이 있는지를 이해하는 것뿐만 아니라, 그 내용이 어디에 위치해 있는지를 이해하는 것이 중요합니다. 이 연구에서는 비전-언어 모델이 얼마나 잘 객체가 이미지 내에서 어디에 위치해 있는지를 이해하고, 시각적으로 관련된 영상 부분들을 그룹화할 수 있는지를 검토합니다. 우리는 대조 손실과 대규모 웹 기반 데이터를 기반으로 하는 현대적인 비전 및 언어 표현 학습 모델들이 제한된 객체 위치 정보만을 포착함을 보여줍니다. 이를 해결하기 위해 의미와 공간 정보를 동시에 학습하도록 설계된 최소한의 수정 사항을 제안합니다. 이러한 성능은 제로샷 이미지 인식, 비지도 하향식 및 상향식 의미 분할, 그리고 견고성 분석 측면에서 측정됩니다. 결과적으로, 제안된 모델은 비지도 분할 측면에서 최신 기술 수준의 결과를 달성하며, 학습된 표현이 비전 모델의 인과적 행동을 탐색하기 위한 데이터셋에서 우연한 상관관계에 대해 독특하게 견고하다는 것을 입증하였습니다.

대조적 시각-언어 모델에서의 지각 그룹화 | 최신 연구 논문 | HyperAI초신경