HyperAIHyperAI
vor 2 Monaten

Zu schwach überwachtem end-to-end Lernen für die Aktionserkennung in Langvideos

Zhou, Jiaming ; Li, Hanjun ; Lin, Kun-Yu ; Liang, Junwei
Zu schwach überwachtem end-to-end Lernen für die Aktionserkennung in Langvideos
Abstract

Die Entwicklung von end-to-end Aktionserkennungsmodellen für lange Videos ist grundlegend und entscheidend für das Verständnis von Aktionen in langen Videos. Aufgrund der unerschwinglichen Kosten des end-to-end Trainings auf gesamten langen Videos trainieren bestehende Arbeiten in der Regel Modelle auf kurzen Ausschnitten, die aus den langen Videos herausgeschnitten wurden. Allerdings erfordert diese „Ausschneiden-dann-Training“-Praxis Aktionintervall-Annotierungen für die Clip-basierte Überwachung, d.h., man muss wissen, welche Aktionen in die Clips eingeschnitten wurden. Leider ist das Sammeln solcher Annotierungen sehr kostspielig und verhindert das Training von Modellen in großem Umfang. Ziel dieser Arbeit ist es daher, ein schwach überwachtes end-to-end Framework zur Erstellung von Erkennungsmodellen für lange Videos zu entwickeln, das nur Video-basierte Aktionskategorielabels verwendet. Ohne die genauen zeitlichen Positionen der Aktionen in langen Videos zu kennen, schätzt unser vorgeschlagenes schwach überwachtes Framework, genannt AdaptFocus, wo und wie wahrscheinlich Aktionen auftreten werden, um sich an informative Aktionsclips anzupassen und sie für das end-to-end Training zu verwenden. Die Effektivität des vorgeschlagenen AdaptFocus-Frameworks wird anhand dreier langer Videodatensätze demonstriert. Darüber hinaus bietet unser AdaptFocus-Framework für nachgelagerte Aufgaben mit langen Videos eine schwach überwachte Feature-Extraktionspipeline zur Extraktion robuster langer Videofeatures, wodurch die Stand-of-the-Art-Methoden bei diesen Aufgaben erheblich verbessert werden. Wir werden den Code und die Modelle veröffentlichen.

Zu schwach überwachtem end-to-end Lernen für die Aktionserkennung in Langvideos | Neueste Forschungsarbeiten | HyperAI