AniMaker: MCTS駆動の自動化されたマルチエージェントアニメーションストーリーテリング

ビデオ生成モデルの急速な進歩にもかかわらず、複数のシーンやキャラクターを跨ぐ一貫したストーリーテリングビデオの生成は依然として困難である。現在の方法では、事前に生成されたキーフレームを固定長のクリップに硬直的に変換することが多く、これにより物語が断片化し、テンポに問題が生じることがある。さらに、ビデオ生成モデルの固有の不安定性により、単一の低品質なクリップでも全体的な出力アニメーションの論理性と視覚的一貫性が大幅に低下する可能性がある。これらの課題を克服するために、私たちはAniMaker(アニメーカー)というマルチエージェントフレームワークを導入する。このフレームワークは効率的な多候補クリップ生成とストーリー意識的なクリップ選択を可能にし、テキスト入力のみから全体的に一貫性がありストーリーが連続するアニメーションを作成できる。フレームワークは、ストーリーボード生成用のディレクターエージェント、ビデオクリップ生成用のフォトグラフィーエージェント、評価用のレビューアーエージェント、編集と吹き替え用のポストプロダクションエージェントなど、専門的なエージェントを中心に構築されている。AniMakerのアプローチにおいて中心的な役割を果たす2つの主要技術的コンポーネントは以下の通りである。1つ目はフォトグラフィーエージェントにおけるMCTS-Genで、これは効率的なモンテカルロ木探索(MCTS)に基づいた戦略であり、リソース使用を最適化しながら高潜在的なクリップを生成するために候補空間を知能的にナビゲートする。2つ目はレビューアーエージェントにおけるAniEvalで、これはマルチショットアニメーション評価のために特別に設計された最初のフレームワークであり、各クリップが前後のクリップとの関連性の中で評価されることで物語性の一貫性やアクション完了度などの重要な側面を評価する。実験結果は示しているように、AniMakerはVBenchや私たちが提案したAniEvalフレームワークなどの一般的な指標によって測定される品質において優れた結果を達成しており、多候補生成の効率性も大幅に向上させている。これによりAI生成ストーリーテリングアニメーションが制作基準に近づいていることが確認できる。