AniMaker: MCTS-Driven 클립 생성을 이용한 자동화된 다중 에이전트 애니메이션 스토리텔링

비디오 생성 모델의 급속한 발전에도 불구하고, 여러 장면과 캐릭터를 아우르는 일관된 스토리텔링 비디오를 생성하는 것은 여전히 어려운 문제입니다. 현재 방법들은 종종 사전 생성된 키프레임을 고정 길이 클립으로 강직하게 변환하여, 이로 인해 연결되지 않은 서사와 페이싱 문제를 초래합니다. 더욱이, 비디오 생성 모델의 본질적인 불안정성은 단 하나의 저품질 클립조차 전체 출력 애니메이션의 논리적 일관성과 시각적 연속성을 크게 저하시킬 수 있습니다. 이러한 장애물을 극복하기 위해, 우리는 AniMaker라는 다중 에이전트 프레임워크를 소개합니다. 이 프레임워크는 효율적인 다중 후보 클립 생성과 스토리텔링에 기반한 클립 선택을 가능하게 하여, 오직 텍스트 입력만으로 전반적으로 일관되고 스토리에 맞는 애니메이션을 만들 수 있습니다.AniMaker의 구조는 스토리보드 생성을 위한 감독 에이전트(Director Agent), 비디오 클립 생성을 위한 촬영 에이전트(Photography Agent), 평가를 위한 검토 에이전트(Reviewer Agent), 그리고 편집과 목소리 녹음을 위한 후반작업 에이전트(Post-Production Agent) 등 특화된 에이전트들 중심으로 이루어져 있습니다. AniMaker 접근 방식의 핵심은 두 가지 주요 기술 구성 요소입니다: 촬영 에이전트에서 사용되는 MCTS-Gen, 효율적인 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)에 영감을 받은 전략으로 후보 공간을 지능적으로 탐색하여 높은 잠재력을 가진 클립을 생성하면서 자원 사용을 최적화합니다; 그리고 검토 에이전트에서 사용되는 AniEval, 다중 샷 애니메이션 평가를 위해 특별히 설계된 첫 번째 프레임워크로, 각 클립의 앞뒤 클립 맥락을 고려하여 스토리 수준의 일관성, 행동 완료도, 애니메이션 특유의 특징 등을 평가합니다.실험 결과, AniMaker는 VBench 및 우리가 제안한 AniEval 프레임워크와 같은 일반적으로 사용되는 메트릭스로 측정할 때 우수한 품질을 달성하며, 다중 후보 생성의 효율성을 크게 개선하여 AI 생성 스토리텔링 애니메이션이 제작 표준에 한 발짝 더 가까워졌습니다.