AniMaker: Automatisierte Mehragenten-Animationsgeschichtenerzählung mit MCTS-gesteuerter Clip-Erstellung

Trotz rascher Fortschritte bei Video-Generierungsmodellen bleibt die Erstellung kohärenter Erzählvideos, die mehrere Szenen und Figuren umfassen, eine Herausforderung. Aktuelle Methoden konvertieren oft steif vorgenerierte Schlüsselbilder in festlängige Clips, was zu unzusammenhängenden Narrativen und Tempo-Problemen führt. Darüber hinaus bedeutet die inhärente Instabilität von Video-Generierungsmodellen, dass selbst ein einzelner Clip von geringer Qualität den logischen Zusammenhang und die visuelle Kontinuität der gesamten Ausgabeanimation erheblich verschlechtern kann. Um diese Hürden zu überwinden, stellen wir AniMaker vor, einen Mehragentenrahmen, der effiziente Mehrkandidaten-Clip-Generierung und erzählungsbewusste Clip-Auswahl ermöglicht, wodurch global konsistente und erzählungskohärente Animationen ausschließlich aus Texteingaben erstellt werden können. Der Rahmen ist um spezialisierte Agenten strukturiert, darunter den Regisseur-Agent für Storyboard-Erstellung, den Fotografie-Agent für Videoclip-Generierung, den Rezensent-Agent für Bewertung und den Nachbearbeitungs-Agent für Schnitt und Synchronisation. Zentral für AniMakers Ansatz sind zwei wesentliche technische Komponenten: MCTS-Gen im Fotografie-Agent, eine effiziente Strategie inspiriert durch Monte Carlo Tree Search (MCTS), die intelligent durch den Kandidatenraum navigiert, um hochpotenziale Clips zu generieren und gleichzeitig die Ressourcennutzung zu optimieren; sowie AniEval im Rezensent-Agent, das erste Framework speziell für die Bewertung von Mehrschussanimationen entwickelt, das entscheidende Aspekte wie erzählungsbezogene Konsistenz, Aktionserfüllung und animationspezifische Merkmale unter Berücksichtigung jedes Clips im Kontext seiner vorherigen und nachfolgenden Clips bewertet. Experimente zeigen, dass AniMaker nach populären Metriken wie VBench und unserem vorgeschlagenen AniEval-Framework eine überlegene Qualität erreicht und dabei die Effizienz der Mehrkandidaten-Generierung erheblich verbessert, was AI-generierte Erzählanimationsvideos näher an Produktionsstandards bringt.