2일 전

타임: 이미지를 넘어서 생각하라

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
타임: 이미지를 넘어서 생각하라
초록

OpenAI가 '이미지를 통해 사고한다(Thinking with Images)'라는 개념을 도입한 이후, 최근 연구들은 시각 정보를 추론 과정에 효과적으로 활용함으로써 인지 및 추론 작업에서 모델 성능을 향상시키는 방향으로 노력해왔다. 그러나 현재까지 알려진 바에 따르면, 기존의 사내 모델(O3) 수준의 풍부한 기능을 갖춘 오픈소스 연구는 존재하지 않는다. 특히, 다양한 이미지 변환 작업을 수행할 수 있고, 동시에 코드를 통해 논리적 추론 능력을 강화할 수 있는 기능은 아직까지는 오픈소스 환경에서 구현되지 않은 상태이다. 본 논문에서는 이러한 방향에 대한 초보적인 시도로서, MLLM(Multimodal Large Language Models)이 기존의 '이미지를 통해 사고한다'는 접근을 넘어설 수 있도록 돕는 새로운 패러다임인 Thyme(Think Beyond Images)를 제안한다. Thyme는 실행 가능한 코드를 통해 자율적으로 다양한 이미지 처리 및 계산 작업을 생성하고 실행함으로써, 기존의 제한된 시각적 추론을 탈피한다. 이 접근은 이미지의 자르기, 회전, 대비 강화 등 다양한 실시간 이미지 변환을 가능하게 할 뿐만 아니라, 수학적 계산도 수행할 수 있으며, 이러한 작업을 언제, 어떻게 적용할지를 고도로 자율적으로 결정할 수 있다. 이 기능을 구현하기 위해, 두 단계의 학습 전략을 도입한다. 먼저, 50만 개의 샘플로 구성된 정제된 데이터셋을 기반으로 50만 개의 샘플을 기반으로 SFT(Supervised Fine-Tuning)를 수행하여 코드 생성 능력을 학습하고, 이후 RL(Reinforcement Learning) 단계에서 의사결정 능력을 보완한다. RL 단계에서는 학습 난이도를 높이기 위해 고해상도 질문-답변 쌍을 수동으로 수집하고 설계하였으며, 추론 탐색과 코드 실행 정밀도 사이의 균형을 맞추기 위해 텍스트와 코드 생성에 서로 다른 온도를 적용하는 GRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling) 알고리즘을 제안한다. 본 연구에서는 광범위한 실험 분석 및 아블레이션 연구를 수행하였으며, 약 20개의 벤치마크에서 종합적인 평가를 통해 Thyme가 특히 고해상도 인지 및 복잡한 추론 과제에서 뚜렷하고 일관된 성능 향상을 가져옴을 확인하였다.

타임: 이미지를 넘어서 생각하라 | 최신 연구 논문 | HyperAI초신경