Command Palette

Search for a command to run...

2달 전

대규모 언어 모델을 활용한 상징적 그래픽 프로그래밍

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

대규모 언어 모델을 활용한 상징적 그래픽 프로그래밍

초록

대규모 언어 모델(Large Language Models, LLMs)은 프로그램 합성 분야에서 뛰어난 성능을 보이지만, 정밀한 시각적 콘텐츠를 렌더링할 수 있는 기호적 그래픽 프로그램(Symbolic Graphics Programs, SGPs)을 생성하는 능력은 여전히 탐색이 부족한 영역이다. 본 연구는 자연어 설명에서 SGP를 생성하는 것을 목표로 하는 기호적 그래픽 프로그래밍을 다룬다. 이 작업은 LLM이 시각 세계를 어떻게 이해하는지를 탐색하는 데도 중요한 통찰을 제공하며, 특히 SGP를 기반으로 렌더링된 이미지를 생성하도록 유도함으로써 가능해진다. 다양한 SGPs 중에서 본 논문은 확장 가능한 벡터 그래픽스(Scalable Vector Graphics, SVG)에 집중한다. 먼저 LLM이 SGP를 얼마나 잘 생성할 수 있는지에 대한 범위를 조사하기 위해, 객체 충실도, 장면 충실도, 그리고 복합성(속성 결합, 공간 관계, 수량 인식)을 포함하는 포괄적인 벤치마크인 SGP-GenBench를 제안한다. SGP-GenBench에서 우리는 최첨단 사적 모델이 오픈소스 모델보다 훨씬 뛰어난 성능을 보이며, 이 성능은 일반적인 코드 작성 능력과 잘 상관됨을 발견하였다. 이러한 격차를 극복하고자, LLM의 SGP 생성 능력을 향상시키는 것을 목표로 한다. 이를 위해 검증 가능한 보상(reward)을 갖춘 강화학습(Reinforcement Learning, RL) 기반의 접근법을 제안한다. 이 방법에서는 형식 유효성 게이트(format-validity gate)를 통해 렌더링 가능한 SVG를 보장하고, 강력한 비전 인코더(예: 텍스트-이미지 간 일치에 사용하는 SigLIP, 이미지-이미지 간 일치에 사용하는 DINO)를 활용하여 텍스트와 렌더링된 이미지 간의 교차 모달 보상을 정렬한다. Qwen-2.5-7B에 적용한 결과, 본 방법은 SVG 생성 품질과 의미 표현 측면에서 크게 향상되어 최첨단 시스템 수준의 성능을 달성하였다. 또한 학습 동역학을 분석하여, RL이 (i) 제어 가능한 원시 요소로 객체를 더 세밀하게 분해하고, (ii) 장면의 일관성을 향상시키는 맥락적 세부 정보를 도출함을 보였다. 본 연구 결과는 기호적 그래픽 프로그래밍이 교차 모달 기반(grounding)을 정밀하고 해석 가능한 방식으로 관찰할 수 있는 강력한 도구임을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp