10일 전

스토리2보드: 감정 표현이 가능한 스토리보드 생성을 위한 훈련 불필요한 접근법

David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
스토리2보드: 감정 표현이 가능한 스토리보드 생성을 위한 훈련 불필요한 접근법
초록

우리는 자연어로부터 표현력 있는 스토리보드를 생성하기 위한 훈련 불필요한 프레임워크인 Story2Board를 제안한다. 기존의 방법들은 주로 주체의 정체성에만 초점을 맞추며, 공간 구성, 배경의 변화, 서사의 리듬과 같은 시각적 서사의 핵심 요소들을 간과하고 있다. 이를 해결하기 위해, 두 가지 구성 요소로 이루어진 가벼운 일관성 프레임워크를 도입한다. 첫째, 잠재 패널 고정(Latent Panel Anchoring)은 패널 간에 공통되는 캐릭터 참조를 유지함으로써 일관성을 확보한다. 둘째, 상호 주의 값 혼합(Reciprocal Attention Value Mixing)은 강한 상호 주의를 보이는 토큰 쌍 간의 시각적 특징을 부드럽게 혼합한다. 이 두 메커니즘은 아키텍처의 변경이나 미세조정 없이도 일관성을 향상시키며, 최신의 상태 기반 확산 모델이 시각적으로 다양하면서도 일관된 스토리보드를 생성할 수 있도록 한다. 생성 과정을 구조화하기 위해, 자유형 서사문을 지각된 패널 수준의 프롬프트로 변환하는 데 사전에 구축된 언어 모델을 활용한다. 평가를 위해, 일관성 외에도 레이아웃 다양성과 배경 기반 서사 능력을 평가할 수 있도록 설계된 개방형 서사 문장들을 포함하는 풍부한 스토리보드 벤치마크(Rich Storyboard Benchmark)를 제안한다. 또한 스토리보드 간의 공간적 다양성과 자세 변화를 정량화하는 새로운 장면 다양성 지표(Scene Diversity metric)를 도입한다. 정성적 및 정량적 실험 결과와 사용자 연구를 통해, Story2Board가 기존 베이스라인보다 더 역동적이고 일관성 있으며 서사적으로 매력적인 스토리보드를 생성함을 입증한다.