HyperAIHyperAI
vor 2 Monaten

W-TALC: Schwach überwachte zeitliche Aktivitätslokalisierung und -klassifizierung

Sujoy Paul; Sourya Roy; Amit K Roy-Chowdhury
W-TALC: Schwach überwachte zeitliche Aktivitätslokalisierung und -klassifizierung
Abstract

Die meisten Aktivitätslokalisierungsmethoden in der Literatur leiden unter der Last der rahmengenau benötigten Annotationen. Das Lernen aus schwachen Labels könnte eine potentielle Lösung sein, um diesen manuellen Aufwand zu reduzieren. In den letzten Jahren hat es einen erheblichen Anstieg an getaggten Videos im Internet gegeben, die als reichhaltige Quelle für schwach überwachte Trainingsdaten dienen können. Insbesondere können die Korrelationen zwischen Videos mit ähnlichen Tags genutzt werden, um die Aktivitäten zeitlich zu lokalisieren. Um dieses Ziel zu erreichen, präsentieren wir W-TALC, ein Framework für schwach überwachte zeitliche Aktivitätslokalisierung und Klassifizierung, das ausschließlich auf videobasierten Labels trainiert wird. Das vorgeschlagene Netzwerk kann in zwei Unter-Netzwerke unterteilt werden, nämlich in ein Two-Stream-basiertes Feature-Extraction-Netzwerk und ein schwach überwachtes Modul, das durch die Optimierung von zwei komplementären Verlustfunktionen gelernt wird. Qualitative und quantitative Ergebnisse auf zwei anspruchsvollen Datensätzen – Thumos14 und ActivityNet1.2 – zeigen, dass die vorgeschlagene Methode in der Lage ist, Aktivitäten mit hoher Genauigkeit zu erkennen und bessere Leistungen als aktuelle state-of-the-art-Methoden erzielt.

W-TALC: Schwach überwachte zeitliche Aktivitätslokalisierung und -klassifizierung | Neueste Forschungsarbeiten | HyperAI