2달 전

ClipSitu: 상황 인식에서 조건부 예측을 위한 CLIP의 효과적인 활용

Roy, Debaditya ; Verma, Dhruv ; Fernando, Basura
ClipSitu: 상황 인식에서 조건부 예측을 위한 CLIP의 효과적인 활용
초록

상황 인식은 이미지에서 발생하는 사항을 활동 동사와 행위자 및 객체가 수행하는 의미 역할을 사용하여 구조화된 요약을 생성하는 작업입니다. 이 작업에서는 같은 활동 동사가 다양한 상황을 설명할 수 있으며, 같은 행위자 또는 객체 범주도 이미지에 묘사된 상황에 따라 다양한 의미 역할을 수행할 수 있습니다. 따라서 상황 인식 모델은 이미지의 맥락과 의미 역할의 시각-언어적 의미를 이해해야 합니다. 이를 위해 우리는 언어 설명을 통해 이미지의 맥락을 학습한 CLIP 기초 모델을 활용합니다. 우리는 CLIP 이미지 및 텍스트 임베딩 특성을 사용하여 더 깊고 넓은 다층 퍼셉트론(MLP) 블록이 상황 인식 작업에서 주목할 만한 결과를 얻음을 보여주며, 이는 CLIP이 내재한 외부 시각-언어적 지식과 현대 MLP 블록 설계의 표현력 덕분에 최신 트랜스포머 기반 모델인 CoFormer를 능가합니다. 이러한 결과에 착안하여, 우리는 CLIP 시각 토큰을 사용하여 텍스트 역할과 시각 엔티티 간의 관계를 모델링하는 크로스 어텐션 기반 트랜스포머를 설계하였습니다. 우리의 크로스 어텐션 기반 트랜스포머인 ClipSitu XTF는 imSitu 데이터셋을 사용하여 상위 1개 정확도에서 의미 역할 라벨링(value) 작업에서 기존 최신 연구보다 14.1% 큰 마진으로 성능을 개선했습니다. {비슷하게, 우리의 ClipSitu XTF는 상황 위치 결정 성능에서도 최신 연구 수준을 달성하였습니다.} 우리는 코드를 공개적으로 제공할 계획입니다.