HyperAIHyperAI

Command Palette

Search for a command to run...

Mehragenten-Reinforcement-Learning-basierte Framesampling für effektive ungeschnittene Videokennung

Wenhao Wu; Dongliang He; Xiao Tan; Shifeng Chen; Shilei Wen

Zusammenfassung

Die Videoerkennung hat großes Forschungsinteresse geweckt und es wurden erhebliche Fortschritte gemacht. Eine geeignete Framesampling-Strategie kann die Genauigkeit und Effizienz der Erkennung verbessern. Allerdings verwenden die gängigen Lösungen im Allgemeinen manuell gestaltete Framesampling-Strategien für die Erkennung. Dies kann die Leistungsfähigkeit beeinträchtigen, insbesondere in ungeschnittenen Videos, aufgrund der Variation der Frame-Level-Bedeutung. Um dieses Problem anzugehen, konzentrieren wir uns darauf, die Klassifizierung ungeschnittener Videos durch Entwicklung einer lernbasierten Framesampling-Strategie zu verbessern. Wir formulieren den Framesampling-Prozess intuitiv als mehrere parallele Markov-Entscheidungsprozesse, wobei jeder Prozess das Ziel verfolgt, durch schrittweise Anpassung eines anfänglichen Samplings ein einzelnes Frame oder einen Clip auszuwählen. Dann schlagen wir vor, diese Probleme mit Multi-Agent Reinforcement Learning (MARL) zu lösen. Unser MARL-Framework besteht aus einem neuartigen kontextbewussten Beobachtungsnetzwerk auf Basis von RNNs, das Kontextinformationen zwischen benachbarten Agenten und historische Zustände eines bestimmten Agenten gemeinsam modelliert, einem Policy-Netzwerk, das bei jedem Schritt eine Wahrscheinlichkeitsverteilung über einen vordefinierten Aktionsspace generiert, sowie einem Klassifikationsnetzwerk zur Belohnungsberechnung und endgültigen Erkennung. Ausführliche experimentelle Ergebnisse zeigen, dass unser MARL-basiertes Verfahren manuell gestalteten Strategien bei verschiedenen 2D- und 3D-Basismethoden deutlich überlegen ist. Unser einzelnes RGB-Modell erreicht vergleichbare Leistungen wie die Mehrmodal-Mehrmethode-Fusion des Gewinners von ActivityNet v1.3 sowie neue Stand der Technik-Ergebnisse auf YouTube Birds und YouTube Cars.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp