HyperAIHyperAI
vor 11 Tagen

Bridge-Prompt: Hin zum ordinalen Handlungsverständnis in Anleitungs-Videos

Muheng Li, Lei Chen, Yueqi Duan, Zhilan Hu, Jianjiang Feng, Jie Zhou, Jiwen Lu
Bridge-Prompt: Hin zum ordinalen Handlungsverständnis in Anleitungs-Videos
Abstract

Aktionserkennungsmodelle haben ein vielversprechendes Potenzial bei der Klassifizierung menschlicher Aktionen in kurzen Videoclips demonstriert. In realen Szenarien treten mehrere korrelierte menschliche Aktionen häufig in bestimmter Reihenfolge auf und bilden semantisch sinnvolle menschliche Aktivitäten. Herkömmliche Ansätze zur Aktionserkennung konzentrieren sich auf die Analyse einzelner Aktionen. Sie sind jedoch nicht in der Lage, die kontextuellen Beziehungen zwischen benachbarten Aktionen vollständig zu erfassen, welche jedoch potenzielle zeitliche Logik für das Verständnis langer Videos liefern. In diesem Paper stellen wir einen promptbasierten Rahmenwerk, Bridge-Prompt (Br-Prompt), vor, um die Semantik über benachbarte Aktionen hinweg zu modellieren, sodass sowohl kontextfreie als auch kontextbezogene Informationen aus einer Folge ordinaler Aktionen in Anleitungs-Videos gleichzeitig genutzt werden können. Genauer gesagt reformulieren wir die einzelnen Aktionsetiketten in integrierte Text-Prompts zur Überwachung, die die Lücke zwischen den einzelnen Aktionssemantiken schließen. Die generierten Text-Prompts werden mit den entsprechenden Videoclips gepaart und gemeinsam mittels eines kontrastiven Ansatzes zur gemeinsamen Trainierung des Text- und des Video-Encoders verwendet. Der gelernte Vision-Encoder verfügt über eine stärkere Fähigkeit für nachgeschaltete Aufgaben im Zusammenhang mit ordinalen Aktionen, beispielsweise Aktionssegmentierung und menschliche Aktivitäts-Erkennung. Wir evaluieren die Leistung unserer Methode an mehreren Videodatenbanken: Georgia Tech Egocentric Activities (GTEA), 50Salads und die Breakfast-Datenbank. Br-Prompt erreicht dabei den Stand der Technik auf mehreren Benchmarks. Der Quellcode ist unter https://github.com/ttlmh/Bridge-Prompt verfügbar.

Bridge-Prompt: Hin zum ordinalen Handlungsverständnis in Anleitungs-Videos | Neueste Forschungsarbeiten | HyperAI