3C-Net: Kategoriezählung und Zentrumverlust für schwach überwachte Aktionserkennung

Die zeitliche Aktionserkennung ist ein anspruchsvolles Problem der Computer Vision mit zahlreichen Anwendungen in der Praxis. Die meisten existierenden Methoden benötigen aufwändige Frame-basierte Überwachung zur Ausbildung von Aktionserkennungsmodellen. In dieser Arbeit schlagen wir ein Framework vor, das 3C-Net genannt wird und nur Video-basierte Überwachung (schwache Überwachung) in Form von Aktionskategorien und den entsprechenden Häufigkeiten erfordert. Wir führen eine neue Formulierung ein, um diskriminative Aktionseigenschaften mit verbesserten Lokalisierungsfähigkeiten zu lernen. Unsere gemeinsame Formulierung besteht aus drei Teilen: einem Klassifikationsterm, um die Trennbarkeit der gelernten Aktionseigenschaften sicherzustellen; einem angepassten Multi-Label-Center-Loss-Term, um die Diskriminierbarkeit der Aktionseigenschaften zu erhöhen; und einem Zählverlustterm, um benachbarte Aktionssequenzen abzugrenzen, was zu einer verbesserten Lokalisierung führt. Umfassende Experimente wurden an zwei anspruchsvollen Benchmarks durchgeführt: THUMOS14 und ActivityNet 1.2. Unser Ansatz stellt einen neuen Stand der Technik für schwach überwachte zeitliche Aktionserkennung in beiden Datensätzen dar. Im Datensatz THUMOS14 erreicht die vorgeschlagene Methode einen absoluten Gewinn von 4,6 % im Mittelwert der durchschnittlichen Präzision (mean average precision, mAP) im Vergleich zum aktuellen Stand der Technik. Der Quellcode ist unter https://github.com/naraysa/3c-net verfügbar.