Video Based Generative Performance 2
Video-basierte Generative Performance-Benchmarking (Detailorientierung) ist ein Benchmark zur Bewertung der detailorientierten Fähigkeiten generativer Video-Dialogmodelle. Diese Aufgabe basiert auf dem ActivityNet-200-Datensatz und konstruiert einen Testdatensatz aus reichhaltigen und dicht annotierten menschlichen Beschreibungen sowie den zugehörigen Frage-Antwort-Paaren. Es nutzt das GPT-3.5-Modell, um eine Evaluationspipeline zu entwickeln, die relative Bewertungen von 1 bis 5 für generierte Vorhersagen bereitstellt. Das Ziel ist es, die Genauigkeit und Kohärenz der Modelle im Verstehen und Ausdrücken von Details zu verbessern und damit eine wichtige Referenz für die Optimierung der Leistung von Video-Dialogsystemen zu schaffen.