Mehragenten-Reinforcement-Learning-basierte Framesampling für effektive ungeschnittene Videokennung

Die Videoerkennung hat großes Forschungsinteresse geweckt und es wurden erhebliche Fortschritte gemacht. Eine geeignete Framesampling-Strategie kann die Genauigkeit und Effizienz der Erkennung verbessern. Allerdings verwenden die gängigen Lösungen im Allgemeinen manuell gestaltete Framesampling-Strategien für die Erkennung. Dies kann die Leistungsfähigkeit beeinträchtigen, insbesondere in ungeschnittenen Videos, aufgrund der Variation der Frame-Level-Bedeutung. Um dieses Problem anzugehen, konzentrieren wir uns darauf, die Klassifizierung ungeschnittener Videos durch Entwicklung einer lernbasierten Framesampling-Strategie zu verbessern. Wir formulieren den Framesampling-Prozess intuitiv als mehrere parallele Markov-Entscheidungsprozesse, wobei jeder Prozess das Ziel verfolgt, durch schrittweise Anpassung eines anfänglichen Samplings ein einzelnes Frame oder einen Clip auszuwählen. Dann schlagen wir vor, diese Probleme mit Multi-Agent Reinforcement Learning (MARL) zu lösen. Unser MARL-Framework besteht aus einem neuartigen kontextbewussten Beobachtungsnetzwerk auf Basis von RNNs, das Kontextinformationen zwischen benachbarten Agenten und historische Zustände eines bestimmten Agenten gemeinsam modelliert, einem Policy-Netzwerk, das bei jedem Schritt eine Wahrscheinlichkeitsverteilung über einen vordefinierten Aktionsspace generiert, sowie einem Klassifikationsnetzwerk zur Belohnungsberechnung und endgültigen Erkennung. Ausführliche experimentelle Ergebnisse zeigen, dass unser MARL-basiertes Verfahren manuell gestalteten Strategien bei verschiedenen 2D- und 3D-Basismethoden deutlich überlegen ist. Unser einzelnes RGB-Modell erreicht vergleichbare Leistungen wie die Mehrmodal-Mehrmethode-Fusion des Gewinners von ActivityNet v1.3 sowie neue Stand der Technik-Ergebnisse auf YouTube Birds und YouTube Cars.