Video-basiertes generatives Leistungsbenchmarking (Konsistenz)
"Video-basierte Generative Performance-Benchmarking (Konsistenz)" ist eine Benchmark-Aufgabe, die entwickelt wurde, um die Konsistenz von generativen Video-Dialogmodellen zu bewerten. Diese Aufgabe basiert auf dem ActivityNet-200-Datensatz, der den Testdatensatz durch reichhaltige, dicht beschreibende Captions und menschlich annotierte Frage-Antwort-Paare konstruiert. Eine Evaluationspipeline, die mit dem GPT-3.5-Modell entwickelt wurde, wird verwendet, um den generierten Vorhersagen eine relative Bewertung von 1 bis 5 zu geben. Das Ziel ist es, die Fähigkeit des Modells zu messen, Informationskonsistenz und logische Kohärenz über mehrere Dialogrunden hinweg aufrechtzuerhalten, was wichtige Referenzpunkte für die Optimierung der Leistung von Video-Dialogsystemen bietet.