Weniger tun und mehr erreichen: Das Training von CNNs für die Aktionserkennung unter Verwendung von Aktionbildern aus dem Web

Kürzlich wurden Versuche unternommen, Millionen von Videos zu sammeln, um CNN-Modelle für die Aktionserkennung in Videos zu trainieren. Allerdings erfordert das Curation solcher groß angelegten Video-Datensätze enorme menschliche Arbeitskräfte und das Training von CNNs an Millionen von Videos verlangt nach beträchtlichen Rechenressourcen. Im Gegensatz dazu ist das Sammeln von Aktionenbildern aus dem Internet viel einfacher und das Training an Bildern benötigt deutlich weniger Berechnungen. Zudem neigen beschriftete Web-Bilder dazu, diskriminierende Aktionenpose zu enthalten, die charakteristische Teile der zeitlichen Entwicklung eines Videos hervorheben. Wir untersuchen die Frage, ob wir Web-Aktionsbilder nutzen können, um bessere CNN-Modelle für die Aktionserkennung in Videos zu trainieren. Dazu sammeln wir 23.800 manuell gefilterte Bilder aus dem Internet, die die 101 Aktionen im UCF101 Aktionsvideo-Datensatz darstellen. Wir zeigen, dass durch die Nutzung von Web-Aktionsbildern zusammen mit Videos beim Training signifikante Leistungssteigerungen der CNN-Modelle erreicht werden können. Anschließend untersuchen wir die Skalierbarkeit des Prozesses, indem wir gekrochene (unfiltrierte) Web-Bilder für UCF101 und ActivityNet nutzen. Dabei ersetzen wir 16,2 Millionen Videobilder durch 393.000 unfiltrierte Bilder und erhalten vergleichbare Leistungsergebnisse.注释:- "CNN" stands for "Convolutional Neural Network" and is commonly used in German as well.- "UCF101" and "ActivityNet" are names of specific datasets and are kept in their original form.- "Manually filtered" is translated as "manuell gefiltert".- "Crawled web images (unfiltered)" is translated as "gekrochene (unfiltrierte) Web-Bilder".