HyperAIHyperAI
vor 9 Tagen

Vorhersage der nächsten Aktion durch Modellierung des abstrakten Ziels

Debaditya Roy, Basura Fernando
Vorhersage der nächsten Aktion durch Modellierung des abstrakten Ziels
Abstract

Das Problem der Vorhersage menschlicher Handlungen ist inhärent unsicher. Doch diese Unsicherheit lässt sich verringern, wenn man Kenntnis von dem Ziel hat, das der Handelnde verfolgt. In diesem Beitrag präsentieren wir ein Modell zur Handlungsprognose, das Zielinformationen nutzt, um die Unsicherheit in zukünftigen Vorhersagen zu reduzieren. Da wir während der Inferenz weder Zugang zu Zielinformationen noch zu den beobachteten Aktionen haben, greifen wir auf visuelle Darstellungen zurück, um Informationen sowohl über Aktionen als auch über Ziele zu kodieren. Auf diese Weise leiten wir ein neuartiges Konzept namens abstraktes Ziel ein, das auf beobachteten Folgen visueller Merkmale basiert und zur Handlungsprognose dient. Wir definieren das abstrakte Ziel als Verteilung, deren Parameter mittels eines variationalen rekurrenten Netzwerks geschätzt werden. Wir generieren mehrere Kandidaten für die nächste Aktion und führen eine Zielkonsistenzmaßnahme ein, um den besten Kandidaten zu identifizieren, der aus dem abstrakten Ziel folgt. Unser Ansatz erzielt beeindruckende Ergebnisse auf den besonders anspruchsvollen Datensätzen Epic-Kitchens55 (EK55), EK100 und EGTEA Gaze+. Für die Sichtbare-Küchen-Teilmenge (S1) von EK55 erreichen wir absolute Verbesserungen von +13,69 (Top-1-Verben), +11,24 (Top-1-Nomen) und +5,19 (Top-1-Handlungsprognosegenauigkeit) gegenüber vorherigen State-of-the-Art-Methoden. Ebenso erzielen wir erhebliche Verbesserungen für die nicht gesehenen Küchen (S2), mit +10,75 (Top-1-Verben), +5,84 (Top-1-Nomen) und +2,87 (Top-1-Handlung) in der Prognose. Ähnliche Trends zeigen sich auch für den EGTEA Gaze+-Datensatz, wo absolute Verbesserungen von +9,9 (Nomen), +13,1 (Verben) und +6,8 (Handlung) erzielt werden. Mit der Einreichung dieser Arbeit ist unser Ansatz aktuell der neue State-of-the-Art für die Handlungsprognose in EK55 und EGTEA Gaze+ (https://competitions.codalab.org/competitions/20071#results). Der Quellcode ist verfügbar unter: https://github.com/debadityaroy/Abstract_Goal