HyperAIHyperAI
vor 2 Monaten

DenseImage-Netzwerk: Kodierung und Verständnis der räumlich-zeitlichen Evolution in Videos

Xiaokai Chen; Ke Gao
DenseImage-Netzwerk: Kodierung und Verständnis der räumlich-zeitlichen Evolution in Videos
Abstract

Viele der führenden Ansätze für die Videoanalyse sind datenhungrig und zeitaufwendig und schaffen es nicht, den Kern der räumlich-zeitlichen Entwicklung effizient zu erfassen. Die neuesten Forschungsergebnisse zeigen, dass CNN-Netze (Convolutional Neural Networks) in der Lage sind, statische Beziehungen von Entitäten in Bildern zu analysieren. Um ihre Kapazität bei der Analyse dynamischer Evolution weiter auszuschöpfen, stellen wir ein neuartiges Netzwerkmodul vor, das DenseImage Network (DIN) genannt wird, mit zwei Hauptbeiträgen:1) Eine neue kompakte Darstellung von Videos, die ihre wesentliche räumlich-zeitliche Entwicklung in eine Matrix namens DenseImage zusammenfasst, die für eine effiziente Videokodierung optimiert ist.2) Es wird eine einfache aber mächtige Lernstrategie basierend auf DenseImage und einem zeitlicher-Reihenfolge-bewahrenden CNN-Netzwerk vorgeschlagen, die eine lokale zeitliche Korrelationsbedingung enthält. Diese Bedingung erfasst die zeitliche Evolution auf verschiedenen Zeitskalen mit unterschiedlichen Filterbreiten.Umfangreiche Experimente an zwei jüngsten anspruchsvollen Benchmarks zeigen, dass unser DenseImage Network die gemeinsame räumlich-zeitliche Evolution zwischen ähnlichen Aktionen genau erfassen kann, selbst bei enormer visueller Variation oder unterschiedlichen Zeitskalen. Darüber hinaus erzielen wir Stand-of-the-Art-Ergebnisse in der Aktionserkennung und Gestenerkennung mit deutlich geringeren Zeit- und Speicherkosten, was sein großes Potenzial in der Videodarstellung und -analyse unterstreicht.

DenseImage-Netzwerk: Kodierung und Verständnis der räumlich-zeitlichen Evolution in Videos | Neueste Forschungsarbeiten | HyperAI