Command Palette
Search for a command to run...
ThinkMorph: 다중모달 혼합 사고 체인의 부상하는 특성
ThinkMorph: 다중모달 혼합 사고 체인의 부상하는 특성
Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng
초록
다중모달 추론은 언어와 시각 간의 반복적 조율을 필요로 하지만, 의미 있는 교차된 사고 흐름의 본질에 대해서는 여전히 명확하지 않다. 우리는 텍스트와 이미지의 사고가 서로 보완적인 관계를 가져야 하며, 동형적(일대일 대응)이 아닌 방식으로 상호작용하여 추론을 발전시켜야 한다고 제안한다. 이 원칙을 바탕으로, 다양한 시각적 참여 수준을 가진 과제를 아우르는 24,000개 이상의 고품질 교차 추론 트레이스를 기반으로 미세조정된 통합 모델인 ThinkMorph를 구축하였다. ThinkMorph는 시각적 콘텐츠를 구체적으로 조작하면서도 일관된 언어적 논리를 유지하는 점진적인 텍스트-이미지 추론 단계를 학습한다. 이 모델은 시각 중심의 벤치마크에서 기준 모델 대비 평균 34.7%의 성능 향상을 보이며, 도메인 외부 과제에 대해서도 일반화 가능하여 더 크고 전용(프로피리터리)인 VLMs와 비슷하거나 이를 능가한다. 성능 이상의 차원에서 ThinkMorph는 새로운 다중모달 지능을 보여주며, 예전에 경험하지 못한 시각적 조작 능력, 추론 모드 간의 적응적 전환 능력, 그리고 다양한 다중모달 사고를 통한 테스트 시각적 확장성 향상 등이 포함된다. 이러한 결과는 통합 모델이 다중모달 추론에서 나타나는 새로운 능력을 규명하는 데 있어 유망한 방향성을 제시한다.