HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von räumlich-zeitlichen Repräsentationen mit lokaler und globaler Diffusion

Zhaofan Qiu†, Ting Yao‡, Chong-Wah Ngo§, Xinmei Tian†, and Tao Mei‡

Zusammenfassung

Faltungsneuronale Netze (CNN) gelten als eine leistungsstarke Klasse von Modellen für Probleme der visuellen Erkennung. Dennoch sind die faltenden Filter in diesen Netzwerken lokale Operationen, die große Abhängigkeiten außer Acht lassen. Dieser Nachteil wird besonders bei der Videoerkennung noch schlimmer, da Video ein informationsintensives Medium mit komplexen zeitlichen Variationen ist. In dieser Arbeit stellen wir einen neuen Ansatz vor, um das räumlich-zeitliche Repräsentationslernen durch lokale und globale Diffusion (LGD) zu verbessern. Insbesondere entwickeln wir eine neuartige neuronale Netzwerkarchitektur, die lokale und globale Repräsentationen parallel lernt. Diese Architektur besteht aus LGD-Blöcken, wobei jeder Block lokale und globale Merkmale durch die Modellierung der Diffusionen zwischen diesen beiden Repräsentationen aktualisiert. Die Diffusionen interagieren effektiv zwei Aspekte der Information, nämlich lokalisierte und ganzheitliche, auf eine stärker kraftvolle Weise des Repräsentationslernens. Darüber hinaus wird ein kernelbasierter Klassifikator eingeführt, um die Repräsentationen aus den beiden Aspekten für die Videoerkennung zu kombinieren. Unsere LGD-Netze erzielen deutliche Verbesserungen auf den großen Kinetics-400 und Kinetics-600 Videoklassifizierungsdatensätzen gegenüber den besten Konkurrenten um 3,5 % und 0,7 %. Wir untersuchen zudem die Generalisierungsfähigkeit sowohl der globalen als auch der lokalen Repräsentationen, die von unseren vorgefertigten LGD-Netzen erzeugt werden, anhand vier verschiedener Benchmarks für Aufgaben der Videobewegungserkennung und räumlich-zeitlichen Bewegungsdetektion. Über diese Benchmarks werden überlegene Leistungen gegenüber mehreren Stand-of-the-Art-Techniken gemeldet. Der Quellcode ist unter folgender URL verfügbar: https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp