HyperAIHyperAI
vor 17 Tagen

Mr. HiSum: Ein großskaliges Datensatz für die Erkennung und Zusammenfassung von Video-Highlights

Mr. HiSum: Ein großskaliges Datensatz für die Erkennung und Zusammenfassung von Video-Highlights
Abstract

Die Erkennung von Videohighlights ist eine Aufgabe, bei der automatisch die fesselndsten Momente aus einem langen Video ausgewählt werden sollen. Dieses Problem ist äußerst herausfordernd, da es darauf abzielt, eine allgemeine Methode zu erlernen, um Highlights aus einer Vielzahl von Videos in der realen Welt zu identifizieren. Die Aufgabe zeichnet sich durch eine inhärente Subjektivität aus, da die Definition eines Highlights von Person zu Person variieren kann. Um konsistente und sinnvolle Highlights zu detektieren, wurden bisherige Benchmark-Datensätze daher von mehreren (5–20) Beurteilern annotiert. Aufgrund der hohen Kosten manueller Annotation sind die meisten verfügbaren öffentlichen Benchmarks äußerst klein und enthalten lediglich einige Dutzend bis einige Hundert Videos. Diese unzureichende Datensatzgröße führt zu mehreren Problemen, wie instabiler Bewertung oder hoher Empfindlichkeit gegenüber Trainings-Test-Splits. Wir präsentieren Mr. HiSum, einen großskaligen Datensatz für die Erkennung und Zusammenfassung von Videohighlights, der 31.892 Videos umfasst und zu jedem Video zuverlässige Labels aus über 50.000 Nutzern aggregiert. Wir belegen empirisch die Zuverlässigkeit der Labels als Maß für die Frame-Bedeutung durch Cross-Dataset-Transfer und Nutzerstudien.