Command Palette
Search for a command to run...
Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

초록
에이전트 시대에 코드는 추론과 행동을 위한 정밀하고 실행 가능한 매체로 부상하고 있다. 그러나 기존의 연구 진전은 주로 프로그램 합성과 디버깅과 같은 언어 중심 과제에 집중되어 왔으며, 시각 중심의 코드 작성이 여전히 탐색이 부족한 영역에 머물러 있다. 인간이 스케치를 기반으로 추론하는 방식을 영감으로 삼아, 우리는 SVG 코드를 컴팩트하고 해석 가능하며 실행 가능한 시각적 표현으로 제안한다. 본 연구에서는 다중모달 이해를 코드 생성으로 재정의하는 기준(벤치마크)인 VCode를 도입한다. 주어진 이미지에 대해 모델은 후속 추론을 위해 기호적 의미를 보존하는 SVG를 생성해야 한다. VCode는 세 가지 영역을 아우른다: 일반적인 공감지식(MM-Vet), 전문 분야 지식(MMMU), 시각 중심 인지(CV-Bench). 기호적 정확도를 평가하기 위해, 렌더링된 SVG를 기반으로 정책 모델이 질문에 답하는 새로운 평가 프로토콜인 CodeVQA를 제안한다. 정답이 올바르게 도출될 경우, 기호적 의미의 충실한 보존이 확인된다. 실험 결과, 최전선의 다중모달 언어 모델(VLM)이 정확한 SVG를 생성하는 데 어려움을 겪으며, 언어 중심과 시각 중심 코드 작성 간 지속적인 격차가 드러났다. 이 격차를 해소하기 위해, VLM을 두 가지 축을 중심으로 보강하는 에이전트 기반 프레임워크인 VCoder를 제안한다. 첫째, '수정을 통한 사고(Thinking with Revision)'는 오차를 반복적으로 분석하고 SVG 코드를 정교화하는 과정을 포함한다. 둘째, '시각 도구를 통한 행동(Acting with Visual Tools)'은 모델의 내재적 능력 외부의 구조화된 단서(객체, 도형, 텍스트 등)를 탐지기와 파서를 통해 제공한다. 다양한 벤치마크에서 최전선 VLM은 전반적으로 높은 점수를 기록하지만, 전문 지식과 3D 추론 능력에서는 여전히 한계를 보인다. VCoder는 최고 성능을 기록한 Claude-4-Opus 대비 전반적인 성능에서 12.3점의 향상을 달성한다. 인간 실험 결과, 인간과 VLM 모두 렌더링된 SVG에서 성능이 저하되나, 일관성 있는 추론 패턴이 기호적 시각 표현의 잠재력을 입증한다. 본 벤치마크와 코드는 https://github.com/CSU-JPG/VCode 에서 공개되어 있다.