Command Palette

Search for a command to run...

7일 전

VLM-SlideEval: PPT 내 구조적 이해 및 변형에 대한 민감도 평가를 위한 VLM의 평가

Hyeonsu Kang Emily Bao Anjan Goswami

VLM-SlideEval: PPT 내 구조적 이해 및 변형에 대한 민감도 평가를 위한 VLM의 평가

초록

시각-언어 모델(VLM)은 프레젠테이션 슬라이드를 포함한 다중모달 콘텐츠 평가에 점점 더 널리 사용되고 있으나, 슬라이드에 특화된 이해 능력은 여전히 탐색이 부족한 상태이다{지능형 모델 중심의 파이프라인에서 비판자 역할을 수행하는 모델의 역할이 커지면서도}. 본 연구에서는 세 가지 축을 중심으로 VLM의 성능을 탐구하는 평가 프레임워크인 VLM-SlideEval을 제안한다. 첫째, 슬라이드 이미지에서 요소를 정확히 추출하는 능력(정답 데이터와의 정합성 기반), 둘째, 기하학적, 스타일적, 텍스트적 요소에 대한 제어된 변형에 대한 견고성, 셋째, 슬라이드를 뒤섞은 상태에서 전체 프레젠테이션의 서사적 흐름을 복원하는 등 고수준의 이해 능력이다. 공개된 Zenodo 데이터베이스(이 URL)에서 제공하는 프레젠테이션 슬라이드를 활용하여, PowerPoint XML 파일과 실시간 렌더링 결과를 기반으로 한 지침 데이터를 통합적이고 검증 가능한 스키마로 표준화하였다. 실증 결과, VLM은 픽셀 수준의 정확한 요소 추출에서는 성능이 낮으며, 제어된 변형에 대해 일정 수준의 일관성과 충실도를 보이지만, 단일 슬라이드의 콘텐츠 이해보다는 서사 구조를 전반적으로 파악하는 데는 신뢰할 수 있는 성능을 보이지 못했다. 이러한 결과는 현재의 VLM이 슬라이드 평가에 한계를 지닌다는 점을 시사하며, 지능형 파이프라인 내에서 반복적인 개선과 선택을 유도할 수 있는 보정된 ‘비판자-내장형’ 평가자 설계의 필요성을 제기한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VLM-SlideEval: PPT 내 구조적 이해 및 변형에 대한 민감도 평가를 위한 VLM의 평가 | 연구 논문 | HyperAI초신경