Command Palette
Search for a command to run...
ConvNet-Architektur-Suche für räumlich-zeitliche Merkmalslernen
ConvNet-Architektur-Suche für räumlich-zeitliche Merkmalslernen
Du Tran Jamie Ray Zheng Shou Shih-Fu Chang Manohar Paluri
Zusammenfassung
Das Vortrainieren von ConvNets auf ImageNet hat sich bei vielen visuellen Verständnisaufgaben, einschließlich Objekterkennung, semantischer Segmentierung und Bildbeschreibung, als nützlich erwiesen. Obwohl jede Bildrepräsentation auf Videobilder angewendet werden kann, ist eine spezielle räumlich-zeitliche Repräsentation immer noch entscheidend, um Bewegungsmuster zu berücksichtigen, die allein durch Erscheinungsmodelle nicht erfasst werden können. In dieser Arbeit wird eine empirische Architektursuche für das Lernen von räumlich-zeitlichen Merkmalen präsentiert, die in einem tiefen dreidimensionalen (3D) Residual ConvNet kulminiert. Unser vorgeschlagenes Modell übertrifft C3D bei den Datensätzen Sports-1M, UCF101, HMDB51, THUMOS14 und ASLAN deutlich und ist gleichzeitig beim Inferenzprozess doppelt so schnell, halb so groß im Modellvolumen und verfügt über eine kompaktere Repräsentation.