HyperAIHyperAI
vor 4 Monaten

Kooperatives Cross-Stream Netzwerk für diskriminative Aktionendarstellung

Jingran Zhang; Fumin Shen; Xing Xu; Heng Tao Shen
Kooperatives Cross-Stream Netzwerk für diskriminative Aktionendarstellung
Abstract

Das räumlich-zeitliche Stream-Modell hat bei der Aktionserkennung in Videos große Erfolge erzielt. Die meisten existierenden Arbeiten konzentrieren sich stärker auf die Entwicklung effektiver Merkmalsfusionmethoden, die das Two-Stream-Modell getrennt trainieren. Es ist jedoch schwierig, in den bestehenden Arbeiten Diskriminierbarkeit und die Exploration komplementärer Informationen zwischen verschiedenen Streams sicherzustellen. In dieser Arbeit schlagen wir ein neues kooperatives Cross-Stream-Netzwerk vor, das die gemeinsame Information in mehreren verschiedenen Modalitäten untersucht. Die Merkmalsextraktion durch die gemeinsam räumlichen und zeitlichen Stream-Netzwerke wird durch ein end-to-end Lernverfahren erreicht. Es extrahiert diese komplementären Informationen verschiedener Modalitäten aus einem Verbindungsbereich (connection block), der darauf abzielt, Korrelationen zwischen den Merkmalen verschiedener Streams zu erkunden. Im Gegensatz zum konventionellen ConvNet, das nur mit einer Kreuzentropieverlustfunktion tief trennbare Merkmale lernt, verbessert unser vorgeschlagenes Modell die diskriminative Leistung der tief gelernten Merkmale und reduziert unerwünschte Modalitätsunterschiede, indem es eine Modalitätsrangfolgebedingung und eine Kreuzentropieverlustfunktion sowohl für homogene als auch für heterogene Modalitäten gleichzeitig optimiert. Die Modalitätsrangfolgebedingung umfasst eine innerhalb der Modalität diskriminierende Einbettung und eine zwischen den Modalitäten liegende Triplettenbedingung und reduziert sowohl die innerhalb der Modalität als auch die zwischen den Modalitäten auftretenden Merkmalsvariationen. Experimente auf drei Benchmark-Datensätzen zeigen, dass unsere Methode durch die Zusammenarbeit von Erscheinungs- und Bewegungsmerkmalsextraktion Stand der Technik oder wettbewerbsfähige Leistungen im Vergleich zu vorhandenen Ergebnissen erzielen kann.

Kooperatives Cross-Stream Netzwerk für diskriminative Aktionendarstellung | Forschungsarbeiten | HyperAI