CREPE: 시각-언어 기반 모델은 구성적으로 추론할 수 있는가?

인간의 시각과 자연어 모두에 공통적으로 나타나는 핵심 특성은 구성성(compositionality)이다. 그러나 대규모 시각 및 언어 사전 학습에 의해 성능이 향상된 상황에서도, 우리는 4가지 알고리즘으로 대규모 데이터셋에서 훈련된 7개의 아키텍처를 대상으로 연구한 결과, 이들 모델이 구성성에 있어 여전히 어려움을 겪고 있음을 확인하였다. 이러한 결론에 도달하기 위해 우리는 인지과학 문헌에서 지적한 구성성의 두 가지 중요한 측면인 체계성(systematicity)과 생산성(productivity)을 측정할 수 있는 새로운 평가 기준 CREPE를 제안한다. 체계성을 평가하기 위해 CREPE는 37만 개 이상의 이미지-텍스트 쌍을 포함한 테스트 데이터셋과 세 가지 서로 다른 '보인-보이지 않은'(seen-unseen) 분할을 포함한다. 이 세 가지 분할은 각각 CC-12M, YFCC-15M, LAION-400M이라는 세 가지 대표적인 훈련 데이터셋에서 훈련된 모델을 평가하기 위해 설계되었다. 또한, 이 쌍의 일부에 대해 각각 32.5만, 31.6만, 30.9만 개의 어려운 부정적 캡션(hard negative captions)을 생성하였다. 생산성을 평가하기 위해 CREPE는 복잡도가 9단계로 나뉜 17,000개의 이미지-텍스트 쌍과 원자적 구성, 교환, 부정적 요소를 포함한 183,000개의 어려운 부정적 캡션을 포함한다. 이 데이터셋은 Visual Genome의 장면 그래프(scene graphs) 및 영역 설명을 재활용하고, 수작업 템플릿과 GPT-3를 활용하여 생성되었다. 체계성 측정 결과, 새로운 조합이 검색 집합에서 지배적인 경우 모델 성능이 일관되게 저하되며, Recall@1이 최대 12%까지 감소함을 확인하였다. 생산성 측정에서는 복잡도가 증가함에 따라 모델의 검색 성공률이 감소하며, 특히 고복잡도에서는 랜덤 추측 수준에 근접하는 경우가 빈번하게 발생하였다. 이러한 결과는 모델 아키텍처와 훈련 데이터셋 크기와 관계없이 일관되게 나타났다.