2달 전

인지 패러다임 접근법을 이용한 VLMs에서 지각-추론 인터페이스 탐색

Vaishnav, Mohit ; Tammet, Tanel
인지 패러다임 접근법을 이용한 VLMs에서 지각-추론 인터페이스 탐색
초록

인공지능의 근본적인 과제 중 하나는 Vision-Language Models (VLMs)와 같은 고도화된 모델에서 시각적 추론을 지배하는 인지 메커니즘을 이해하는 것입니다. 이러한 모델은 특히 여러 이미지를 통한 추론이나 세부적인 구성적 이해가 필요한 경우, 시각 인식과 추상적 사고를 어떻게 통합하는까요? 인지과학에서 영감을 얻어, 이 논문에서는 VLMs의 인식-추론 인터페이스를 분석하기 위해 다양한 시각적 추론 작업인 Bongard Problems (BPs)와 Winoground를 사용한 구조화된 평가 프레임워크를 제시합니다. 우리는 인간의 문제 해결 전략을 반영하여 세 가지 다른 평가 패러다임을 제안합니다: 직접적인 시각 규칙 학습 (Direct Visual Rule Learning; DVRL; 전체 처리), 연역적 규칙 학습 (Deductive Rule Learning; DRL; 규칙 추출 및 적용), 그리고 구성 요소 분석 (Componential Analysis; CA; 작업에 독립적인 텍스트 설명을 통한 분석적 분해). 이러한 패러다임들은 체계적으로 인지 부담을 변화시키며 처리 단계를 탐색합니다. 특히, CA는 단일 이미지 아키텍처에서도 다중 이미지 추론 평가를 가능하게 하며, 텍스트 설명을 통해 인식과 추론을 분리할 수 있습니다.이 프레임워크를 적용하여, 우리는 CA가 강력한 언어 모델을 활용하여 풍부하고 독립적으로 생성된 설명 위에서 추론함으로써 Bongard-OpenWorld, Bongard-HOI, Winoground 등 어려운 벤치마크에서 새로운 최고 성능(SOTA) 결과를 달성함을 보여줍니다. 생략 연구(Ablation studies)는 인식 관련 도전 과제가 완화될 때 추론이 크게 개선됨을 확인하며, 중요한 인식 병목 현상을 드러냅니다. 우리의 프레임워크는 유용한 진단 도구를 제공하며, 풍부하고 작업에 독립적인 설명을 통해 인식과 추론을 분리하는 것이 견고하고 일반적인 시각 지능의 유망한 방향이라는 점을 제시합니다.

인지 패러다임 접근법을 이용한 VLMs에서 지각-추론 인터페이스 탐색 | 최신 연구 논문 | HyperAI초신경