시각적 상식 추론

Visual Commonsense Reasoning (VCR)는 이미지와 텍스트를 포함한 다중 모드 추론에 중점을 둔 작업입니다. 이 작업은 이미지의 내용과 그 문맥 정보를 분석하여 합리적인 추론을 하는 것을 목표로 합니다. VCR은 모델이 기본적인 시각 인식 능력뿐만 아니라 장면 내 객체 간의 관계와 인간의 상식을 이해하여 논리적으로 판단할 수 있어야 함을 요구합니다. VCR의 응용 가치는 복잡한 시나리오에서 기계의 인지 수준을 향상시키고, 인간-컴퓨터 상호작용의 자연스러움과 지능을 개선하며, 다중 모드 학습 기술의 발전을 촉진하는 데 있습니다.