HyperAIHyperAI
vor 9 Tagen

Ungewissheitsbewusste Aktionsscheidungstransformator für die Aktionssvorhersage

{Qiang Ji, Kwonjoon Lee, Shao-Yuan Lo, Nakul Agarwal, Hongji Guo}
Ungewissheitsbewusste Aktionsscheidungstransformator für die Aktionssvorhersage
Abstract

Die Vorhersage menschlichen Verhaltens zielt darauf ab, zukünftige Handlungen auf Basis vergangener Beobachtungen vorherzusagen. In diesem Artikel stellen wir den Uncertainty-aware Action Decoupling Transformer (UADT) für die Handlungsprognose vor. Im Gegensatz zu bestehenden Ansätzen, die die Handlung direkt im Format von Verb-Nomen-Paaren vorhersagen, zerlegen wir die Aufgabe der Handlungsprognose in zwei getrennte Teilprobleme: die Vorhersage des Verbs und die Vorhersage des Nomen. Ziel ist es, dass die beiden entkoppelten Aufgaben sich gegenseitig unterstützen und letztlich die Gesamtleistung der Handlungsprognose verbessern. Konkret schlagen wir eine zweistrombasierte Transformer-Architektur vor, die aus einem Verb-zu-Nomen-Modell und einem Nomen-zu-Verb-Modell besteht. Das Verb-zu-Nomen-Modell nutzt Informationen des Verbs, um die Vorhersage des Nomen zu verbessern, und umgekehrt. Wir erweitern das Modell probabilistisch und quantifizieren die prädiktive Unsicherheit jedes der entkoppelten Teilprobleme, um relevante Merkmale auszuwählen. Auf diese Weise nutzt die Nomen-Vorhersage die informativsten und redundanzfreien Merkmale des Verbs, während die Verb-Vorhersage analog vorgeht. Schließlich werden die beiden Ströme dynamisch auf Basis ihrer Unsicherheiten kombiniert, um die gemeinsame Handlungsprognose zu erzielen. Wir belegen die Wirksamkeit unseres Ansatzes durch eine state-of-the-art-Leistung auf mehreren Benchmarks für Handlungsprognose, darunter EPIC-KITCHENS, EGTEA Gaze+ und 50-Salads.