HyperAIHyperAI
vor 2 Monaten

ConvNet-Architektur-Suche für räumlich-zeitliche Merkmalslernen

Du Tran; Jamie Ray; Zheng Shou; Shih-Fu Chang; Manohar Paluri
ConvNet-Architektur-Suche für räumlich-zeitliche Merkmalslernen
Abstract

Das Vortrainieren von ConvNets auf ImageNet hat sich bei vielen visuellen Verständnisaufgaben, einschließlich Objekterkennung, semantischer Segmentierung und Bildbeschreibung, als nützlich erwiesen. Obwohl jede Bildrepräsentation auf Videobilder angewendet werden kann, ist eine spezielle räumlich-zeitliche Repräsentation immer noch entscheidend, um Bewegungsmuster zu berücksichtigen, die allein durch Erscheinungsmodelle nicht erfasst werden können. In dieser Arbeit wird eine empirische Architektursuche für das Lernen von räumlich-zeitlichen Merkmalen präsentiert, die in einem tiefen dreidimensionalen (3D) Residual ConvNet kulminiert. Unser vorgeschlagenes Modell übertrifft C3D bei den Datensätzen Sports-1M, UCF101, HMDB51, THUMOS14 und ASLAN deutlich und ist gleichzeitig beim Inferenzprozess doppelt so schnell, halb so groß im Modellvolumen und verfügt über eine kompaktere Repräsentation.