Lernen von räumlich-zeitlichen Repräsentationen mit lokaler und globaler Diffusion

Faltungsneuronale Netze (CNN) gelten als eine leistungsstarke Klasse von Modellen für Probleme der visuellen Erkennung. Dennoch sind die faltenden Filter in diesen Netzwerken lokale Operationen, die große Abhängigkeiten außer Acht lassen. Dieser Nachteil wird besonders bei der Videoerkennung noch schlimmer, da Video ein informationsintensives Medium mit komplexen zeitlichen Variationen ist. In dieser Arbeit stellen wir einen neuen Ansatz vor, um das räumlich-zeitliche Repräsentationslernen durch lokale und globale Diffusion (LGD) zu verbessern. Insbesondere entwickeln wir eine neuartige neuronale Netzwerkarchitektur, die lokale und globale Repräsentationen parallel lernt. Diese Architektur besteht aus LGD-Blöcken, wobei jeder Block lokale und globale Merkmale durch die Modellierung der Diffusionen zwischen diesen beiden Repräsentationen aktualisiert. Die Diffusionen interagieren effektiv zwei Aspekte der Information, nämlich lokalisierte und ganzheitliche, auf eine stärker kraftvolle Weise des Repräsentationslernens. Darüber hinaus wird ein kernelbasierter Klassifikator eingeführt, um die Repräsentationen aus den beiden Aspekten für die Videoerkennung zu kombinieren. Unsere LGD-Netze erzielen deutliche Verbesserungen auf den großen Kinetics-400 und Kinetics-600 Videoklassifizierungsdatensätzen gegenüber den besten Konkurrenten um 3,5 % und 0,7 %. Wir untersuchen zudem die Generalisierungsfähigkeit sowohl der globalen als auch der lokalen Repräsentationen, die von unseren vorgefertigten LGD-Netzen erzeugt werden, anhand vier verschiedener Benchmarks für Aufgaben der Videobewegungserkennung und räumlich-zeitlichen Bewegungsdetektion. Über diese Benchmarks werden überlegene Leistungen gegenüber mehreren Stand-of-the-Art-Techniken gemeldet. Der Quellcode ist unter folgender URL verfügbar: https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.