타임: 이미지를 넘어서 생각하라

OpenAI가 '이미지를 통해 사고한다(Thinking with Images)'라는 개념을 도입한 이후, 최근 연구들은 시각 정보를 추론 과정에 효과적으로 활용함으로써 인지 및 추론 작업에서 모델 성능을 향상시키는 방향으로 노력해왔다. 그러나 현재까지 알려진 바에 따르면, 기존의 사내 모델(O3) 수준의 풍부한 기능을 갖춘 오픈소스 연구는 존재하지 않는다. 특히, 다양한 이미지 변환 작업을 수행할 수 있고, 동시에 코드를 통해 논리적 추론 능력을 강화할 수 있는 기능은 아직까지는 오픈소스 환경에서 구현되지 않은 상태이다. 본 논문에서는 이러한 방향에 대한 초보적인 시도로서, MLLM(Multimodal Large Language Models)이 기존의 '이미지를 통해 사고한다'는 접근을 넘어설 수 있도록 돕는 새로운 패러다임인 Thyme(Think Beyond Images)를 제안한다. Thyme는 실행 가능한 코드를 통해 자율적으로 다양한 이미지 처리 및 계산 작업을 생성하고 실행함으로써, 기존의 제한된 시각적 추론을 탈피한다. 이 접근은 이미지의 자르기, 회전, 대비 강화 등 다양한 실시간 이미지 변환을 가능하게 할 뿐만 아니라, 수학적 계산도 수행할 수 있으며, 이러한 작업을 언제, 어떻게 적용할지를 고도로 자율적으로 결정할 수 있다. 이 기능을 구현하기 위해, 두 단계의 학습 전략을 도입한다. 먼저, 50만 개의 샘플로 구성된 정제된 데이터셋을 기반으로 50만 개의 샘플을 기반으로 SFT(Supervised Fine-Tuning)를 수행하여 코드 생성 능력을 학습하고, 이후 RL(Reinforcement Learning) 단계에서 의사결정 능력을 보완한다. RL 단계에서는 학습 난이도를 높이기 위해 고해상도 질문-답변 쌍을 수동으로 수집하고 설계하였으며, 추론 탐색과 코드 실행 정밀도 사이의 균형을 맞추기 위해 텍스트와 코드 생성에 서로 다른 온도를 적용하는 GRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling) 알고리즘을 제안한다. 본 연구에서는 광범위한 실험 분석 및 아블레이션 연구를 수행하였으며, 약 20개의 벤치마크에서 종합적인 평가를 통해 Thyme가 특히 고해상도 인지 및 복잡한 추론 과제에서 뚜렷하고 일관된 성능 향상을 가져옴을 확인하였다.