HyperAIHyperAI

Command Palette

Search for a command to run...

시트디자이너: 규칙 기반 및 비전 기반 반사 기법을 활용한 MLLM 기반 스프레드시트 레이아웃 생성

Qin Chen Yuanyi Ren Xiaojun Ma Mugeng Liu Han Shi Dongmei Zhang

초록

스프레드시트는 정보 중심 작업에서 핵심적인 역할을 하며, 구조화된 레이아웃을 통해 효율적인 정보 전달을 가능하게 한다. 수작업으로 스프레드시트 레이아웃을 설계하는 데는 시간과 전문 지식이 요구되므로, 자동화된 솔루션의 필요성이 절실하다. 그러나 기존의 자동 레이아웃 모델은 스프레드시트의 본질적인 특성을 고려하지 못해 적합하지 않은 경우가 많다. 구체적으로, (1) 구성 요소를 연속적인 좌표를 가진 축에 평행한 사각형으로 간주하여 스프레드시트의 본질적으로 이산적이고 격자 기반의 구조를 간과하고 있으며, (2) 데이터 의존성과 맥락적 연결과 같은 스프레드시트 고유의 상호 관련 의미 정보를 무시한다. 본 논문에서는 먼저 스프레드시트 레이아웃 생성 작업을 체계적으로 정의하고, 7가지 평가 기준으로 구성된 평가 프로토콜과 3,326개의 스프레드시트로 구성된 데이터셋을 제안한다. 이후 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 제로샷(zero-shot) 및 학습이 필요 없는 SheetDesigner 프레임워크를 제안한다. 이 프레임워크는 구성 요소 배치 및 콘텐츠 채우기 위해 규칙 기반과 시각 반사(visual reflection) 전략을 융합한다. 실험 결과, SheetDesigner은 5개의 기준 모델보다 최소 22.6% 이상 우수한 성능을 보였다. 또한 시각 모달을 통해 MLLMs가 겹침 처리와 균형 조절에는 효과적으로 대응하지만, 정렬(alignments) 처리에는 어려움을 겪는다는 점을 발견하였으며, 이는 하이브리드 규칙 기반과 시각 반사 전략의 필요성을 시사한다. 본 연구의 코드와 데이터는 GitHub에서 공개되어 있다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
시트디자이너: 규칙 기반 및 비전 기반 반사 기법을 활용한 MLLM 기반 스프레드시트 레이아웃 생성 | 문서 | HyperAI초신경