MiCo: 다중 이미지 대조를 이용한 강화 시각적 추론

이 연구는 여러 이미지 간의 시각적 힌트를 연결하기 위해 사슬 추론(Chain-of-Thought, CoT)을 가능하게 하는 방법을 탐구합니다. 직관적인 해결책은 비전-언어 모델(Vision-Language Models, VLMs)에 규칙 기반 강화 학습(rule-based reinforcement learning)을 적용하는 것입니다. 그러나 이러한 방법은 일반적으로 수동으로 수집된 질문-답변 쌍에 의존하며, 이는 미세한 시각적 세부 사항과 이미지 간의 복잡한 논리를 다룰 때 특히 어려울 수 있습니다. 자기 감독 시각 표현 학습(self-supervised visual representation learning)에서 영감을 얻어, 우리는 이미지가 내재된 제약 조건을 제공할 수 있다는 점을 관찰하였습니다. 이 인사이트에 기반하여, 동일한 이미지의 두 개의 증강된 뷰와 세 번째로 유사하지만 다른 이미지를 포함하는 이미지 트리플렛(image triplets)을 구성하였습니다.훈련 과정에서 모델은 이러한 이미지를 비교(i.e., 같은지 다른지를 결정)하기 위한 추론 과정을 생성하도록 안내됩니다. 그런 다음 규칙 기반 강화 학습으로 모델을 최적화합니다. 높은 시각적 유사성과 증강의 존재로 인해, 모델은 미묘한 시각적 변화에 주목하고 논리적 추론을 수행해야 성공할 수 있습니다. 실험 결과, 오직 시각적 비교 작업으로만 훈련되었음에도 불구하고, 학습된 추론 능력이 다양한 질문에 효과적으로 일반화되는 것을 확인할 수 있었습니다. 인간이 주석 처리한 질문-답변 쌍에 의존하지 않고도, 우리의 방법은 다중 이미지 추론 벤치마크에서 상당한 개선을 이루었으며 일반 비전 작업에서도 우수한 성능을 보였습니다.