Command Palette

Search for a command to run...

22일 전

Code2Video: 교육용 동영상 생성을 위한 코드 중심적 패러다임

Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

Code2Video: 교육용 동영상 생성을 위한 코드 중심적 패러다임

초록

최근의 생성형 모델은 픽셀 공간에서의 영상 합성 기술을 크게 발전시켰지만, 전문적인 교육용 영상 생성에는 여전히 한계가 있다. 교육용 영상은 분야별 지식, 정밀한 시각적 구조, 그리고 자연스러운 전환 효과를 요구하는데, 기존 모델은 이러한 요건을 충족시키지 못해 교육 현장에서의 활용도가 제한된다. 직관적으로 이러한 요구사항은 논리적 명령어(예: 코드)를 통해 명시적으로 제어 가능한 렌더링 가능한 환경을 조작함으로써 더 효과적으로 해결할 수 있다. 본 연구에서는 실행 가능한 파이썬 코드를 통해 교육용 영상을 생성하는 코드 중심의 에이전트 프레임워크인 Code2Video를 제안한다. 이 프레임워크는 세 가지 협업하는 에이전트로 구성된다: (i) Planner(기획자): 강의 내용을 시간적으로 일관성 있는 흐름으로 구조화하고, 관련 시각 자산을 준비한다; (ii) Coder(코더): 구조화된 지시사항을 실행 가능한 파이썬 코드로 변환하며, 범위 기반 자동 수정 기능을 도입하여 생성 효율을 높인다; (iii) Critic(비평가): 시각-언어 모델(VLM)과 시각적 기준 프롬프트를 활용하여 공간적 배치를 정교화하고, 시각적 명확성을 보장한다.체계적인 평가를 지원하기 위해, 전문적으로 제작된 분야별 교육용 영상 데이터셋인 MMMC(Multi-Modal, Multi-Disciplinary, Multi-Context)을 구축하였다. MMMC는 다양한 차원에서 평가되었으며, VLM-as-a-Judge 기반의 미적 점수, 코드 효율성 외에도, 새로이 제안된 TeachQuiz라는 엔드투엔드 지표를 포함한다. TeachQuiz는 생성된 영상을 시청한 후 VLM이 ‘학습 취소(기존 지식 제거)’된 상태에서 얼마나 잘 지식을 복원할 수 있는지를 정량화하는 지표이다. 실험 결과, Code2Video는 직접 코드 생성 방식보다 40% 이상의 성능 향상을 달성하며, 인간이 제작한 튜토리얼 수준의 영상을 생성함으로써, 확장 가능하고 해석 가능하며 제어 가능한 교육 영상 생성 방법의 잠재력을 입증하였다. 코드 및 데이터셋은 다음 URL에서 공개된다: https://example.com/code2video

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Code2Video: 교육용 동영상 생성을 위한 코드 중심적 패러다임 | 연구 논문 | HyperAI초신경