AM-Flow: Adapter für die zeitliche Verarbeitung in der Aktionserkennung

Tiefe Lernmodelle, insbesondere \textit{Bild}-Modelle, haben kürzlich an Allgemeingültigkeit und Robustheit gewonnen. In dieser Arbeit schlagen wir vor, solche Fortschritte im Bereich der \textit{Video}-Klassifikation zu nutzen. Video-Grundmodelle leiden unter der Notwendigkeit umfangreichen Vortrainings und einem langen Trainingszeitraum. Um diese Einschränkungen zu mildern, schlagen wir die Methode "\textit{Attention Map (AM) Flow}" für Bildmodelle vor, welche dazu dient, Pixel in jedem Eingabevideobild zu identifizieren, die sich auf Bewegung beziehen. In diesem Kontext stellen wir zwei Methoden zur Berechnung des AM Flusses vor, abhängig von der Kamerabewegung. Der AM Fluss ermöglicht die Trennung räumlicher und zeitlicher Verarbeitung und liefert verbesserte Ergebnisse im Vergleich zur kombinierten räumlich-zeitlichen Verarbeitung (wie bei Videomodellen). Adapter, eine der beliebten Techniken im parameter-effizienten Transfer Learning, erleichtern die Integration des AM Flusses in vortrainierte Bildmodelle und verringern das Bedürfnis nach vollständigem Feintuning. Wir erweitern Adapter zu "\textit{zeitlichen Verarbeitungsadapters}" durch die Einbeziehung einer zeitlichen Verarbeitungseinheit in die Adapter. Unsere Arbeit erreicht eine schnellere Konvergenz und reduziert somit die Anzahl der für das Training benötigten Epochen. Darüber hinaus verleihen wir einem Bildmodell die Fähigkeit, auf gängigen Aktionserkennungsdatensätzen state-of-the-art-Ergebnisse zu erzielen. Dies verkürzt den Trainingszeitraum und vereinfacht das Vortraining. Wir präsentieren Experimente mit den Datensätzen Kinetics-400, Something-Something v2 und Toyota Smarthome, bei denen state-of-the-art- oder vergleichbare Ergebnisse erzielt werden.