HyperAI

Zusammenfassung

Die rasante Entwicklung generativer Video-Foundation-Models hat das Feld hin zu einer kinematografischen Synthese auf professionellem Niveau vorangetrieben. Um eine derart anspruchsvolle Qualität zu erreichen, wechselt die Community hin zu Reinforcement Learning (RL) und agentic workflows. Allerdings hat sich eine verlässliche Evaluation als kritischer Engpass herauskristallisiert. Bestehende Benchmarks bewerten vorrangig ''ob es richtig ist'' (grundlegendes Prompt-Following), vernachlässigen dabei jedoch grundlegend ''ob es gut ist'' (kinematografische Qualität, Schauspielkunst und Ästhetik). Darüber hinaus fehlt es aktuellen automatisierten Metriken an der domänenspezifischen Strenge, die erforderlich ist, um vertrauenswürdige Signale zu liefern, was eine erhebliche Glaubwürdigkeitslücke zwischen der menschlichen ästhetischen Wahrnehmung und der maschinellen Bewertung erzeugt. Um diese Lücke zu schließen, stellen wir EvalVerse vor, ein umfassendes, pipeline-bewusstes und expertenkalibriertes Evaluierungsframework. Wir betrachten die Bewertung der Videoerstellung nicht bloß als eine ingenieurtechnische Aufgabe, sondern als ein zentrales wissenschaftliches Problem: die systematische Digitalisierung subjektiver kinematografischer Expertise. Erstens strukturieren wir das Domänenwissen in eine Evaluierungstaxonomie, die an den professionellen Filmproduktionsworkflow angepasst ist (pre-production, production und post-production). Zweitens leiten wir menschliche Expertenurteile in einen kuratierten Datensatz mit großflächigen menschlichen Annotationen ab. Drittens integrieren wir dieses Wissen in Vision-Language Models (VLMs) durch eine expertenkalibrierte Fine-Tuning-Strategie, die es dem VLM ermöglicht, explizites Chain-of-Thought-Reasoning durchzuführen. Im Vergleich zu früheren Arbeiten behält EvalVerse nicht nur die Kompatibilität mit grundlegenden ''rightness''-Metriken bei, sondern erweitert die Kriterien erheblich um das ''goodness''-Konzept und weitet die Aufgabenabdeckung auf komplexe Multi-Shot-Sequenzierungen sowie audiovisuelle Integrationen aus. Folglich überwindet EvalVerse durch die Bereitstellung granularer diagnostischer Signale das Konzept eines statischen Leaderboards und etabliert eine fundamentale Infrastruktur für künftige Forschungsarbeiten, etwa für Reward-Modelle und den evaluator agent.

Zusammenfassung

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li16 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li16 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li16 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li

Songlin Yang Haobin Zhong Ruilin Zhang Xiaotong Zhao Shuai Li Kai Zheng Xuyi Yang Zhe Wang Zhenchen Tang Yang Li