HyperAIHyperAI
vor 2 Monaten

AOE-Net: Modellierung von Entitätsinteraktionen mit adaptivem Aufmerksamheitsmechanismus für die Generierung zeitlicher Aktionvorschläge

Khoa Vo; Sang Truong; Kashu Yamazaki; Bhiksha Raj; Minh-Triet Tran; Ngan Le
AOE-Net: Modellierung von Entitätsinteraktionen mit adaptivem Aufmerksamheitsmechanismus für die Generierung zeitlicher Aktionvorschläge
Abstract

Die Generierung von zeitlichen Aktionsvorschlägen (TAPG) ist eine anspruchsvolle Aufgabe, die das Lokalisieren von Aktionsintervallen in einem ungeschnittenen Video erfordert. Intuitiv nehmen wir als Menschen eine Aktion durch die Interaktionen zwischen Akteuren, relevanten Objekten und der umgebenden Umgebung wahr. Trotz der erheblichen Fortschritte bei TAPG ignorieren die meisten existierenden Methoden dieses Prinzip des menschlichen Wahrnehmungsprozesses, indem sie ein Backbonenetzwerk auf ein gegebenes Video als Blackbox anwenden. In diesem Artikel schlagen wir vor, diese Interaktionen mit einem multimodalen Repräsentationsnetzwerk zu modellieren, nämlich dem Akteur-Objekt-Umgebung-Interaktionsnetzwerk (AOE-Net). Unser AOE-Net besteht aus zwei Modulen, nämlich dem wahrnehmungsbasierten multimodalen Repräsentationsmodul (PMR) und dem Grenzwert-Matching-Modul (BMM). Darüber hinaus führen wir im PMR einen adaptiven Aufmerksamkeitsmechanismus (AAM) ein, um sich nur auf Hauptakteure (oder relevante Objekte) zu konzentrieren und die Beziehungen zwischen ihnen zu modellieren. Das PMR-Modul repräsentiert jeden Videosegment durch ein visuell-sprachliches Merkmal, wobei Hauptakteure und die umgebende Umgebung durch visuelle Informationen dargestellt werden, während relevante Objekte durch sprachliche Merkmale mittels eines Bild-Text-Modells beschrieben werden. Das BMM-Modul verarbeitet die Sequenz der visuell-sprachlichen Merkmale als Eingabe und generiert Aktionsvorschläge. Ausführliche Experimente und umfangreiche Abstraktionsstudien auf den Datensätzen ActivityNet-1.3 und THUMOS-14 zeigen, dass unser vorgeschlagenes AOE-Net frühere Stand-of-the-Art-Methoden sowohl in Bezug auf TAPG als auch auf temporale Aktionsdetektion mit bemerkenswerter Leistung und Generalisierung übertrifft. Um die Robustheit und Effektivität von AOE-Net zu beweisen, führen wir zudem eine Abstraktionsstudie auf egozentrischen Videos durch, nämlich auf dem EPIC-KITCHENS 100-Datensatz. Der Quellcode wird bei Annahme zur Verfügung gestellt.请注意,"适应性注意力机制" 翻译为 "adaptiver Aufmerksamkeitsmechanismus",而 "源代码" 翻译为 "Quellcode"。此外,“显著性能”被翻译为“bemerkenswerter Leistung”,以保持德语文本的流畅性和正式性。希望这能帮助您!

AOE-Net: Modellierung von Entitätsinteraktionen mit adaptivem Aufmerksamheitsmechanismus für die Generierung zeitlicher Aktionvorschläge | Neueste Forschungsarbeiten | HyperAI