Busy-Quiet Video Disentangling für die Video-Klassifikation

In Videodaten werden bewegte Details aus bewegten Regionen innerhalb eines bestimmten Frequenzbandes im Frequenzraum übertragen. Gleichzeitig werden die übrigen Frequenzen der Videodaten mit ruhigen Informationen codiert, die erhebliche Redundanz aufweisen, was zu einer geringen Verarbeitungseffizienz bestehender Videomodelle führt, die rohe RGB-Bilder als Eingabe verwenden. In diesem Paper betrachten wir eine intensivere Berechnung für die Verarbeitung der wichtigen bewegten Informationen und eine geringere Berechnung für die Verarbeitung der ruhigen Informationen. Wir entwerfen ein trainierbares Motion Band-Pass-Modul (MBPM), um bewegte von ruhigen Informationen in Rohvideodaten zu trennen. Durch die Einbettung des MBPM in eine zweipfadige CNN-Architektur definieren wir ein Busy-Quiet-Netz (BQN). Die Effizienz des BQN ergibt sich aus der Vermeidung von Redundanz im Merkmalsraum, der von den beiden Pfaden verarbeitet wird: einer arbeitet mit niedrigauflösenden Ruhe-Features, während der andere die bewegten Features verarbeitet. Das vorgeschlagene BQN erreicht eine bessere Leistung als zahlreiche neuere Videoprozessierungsmodelle auf den Datensätzen Something-Something V1, Kinetics400, UCF101 und HMDB51.