vor 6 Monaten

Zusammenfassung

Aktionserkennungsmodelle haben ein vielversprechendes Potenzial bei der Klassifizierung menschlicher Aktionen in kurzen Videoclips demonstriert. In realen Szenarien treten mehrere korrelierte menschliche Aktionen häufig in bestimmter Reihenfolge auf und bilden semantisch sinnvolle menschliche Aktivitäten. Herkömmliche Ansätze zur Aktionserkennung konzentrieren sich auf die Analyse einzelner Aktionen. Sie sind jedoch nicht in der Lage, die kontextuellen Beziehungen zwischen benachbarten Aktionen vollständig zu erfassen, welche jedoch potenzielle zeitliche Logik für das Verständnis langer Videos liefern. In diesem Paper stellen wir einen promptbasierten Rahmenwerk, Bridge-Prompt (Br-Prompt), vor, um die Semantik über benachbarte Aktionen hinweg zu modellieren, sodass sowohl kontextfreie als auch kontextbezogene Informationen aus einer Folge ordinaler Aktionen in Anleitungs-Videos gleichzeitig genutzt werden können. Genauer gesagt reformulieren wir die einzelnen Aktionsetiketten in integrierte Text-Prompts zur Überwachung, die die Lücke zwischen den einzelnen Aktionssemantiken schließen. Die generierten Text-Prompts werden mit den entsprechenden Videoclips gepaart und gemeinsam mittels eines kontrastiven Ansatzes zur gemeinsamen Trainierung des Text- und des Video-Encoders verwendet. Der gelernte Vision-Encoder verfügt über eine stärkere Fähigkeit für nachgeschaltete Aufgaben im Zusammenhang mit ordinalen Aktionen, beispielsweise Aktionssegmentierung und menschliche Aktivitäts-Erkennung. Wir evaluieren die Leistung unserer Methode an mehreren Videodatenbanken: Georgia Tech Egocentric Activities (GTEA), 50Salads und die Breakfast-Datenbank. Br-Prompt erreicht dabei den Stand der Technik auf mehreren Benchmarks. Der Quellcode ist unter https://github.com/ttlmh/Bridge-Prompt verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Muheng Li Lei Chen Yueqi Duan Zhilan Hu Jianjiang Feng Jie Zhou Jiwen Lu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Muheng Li Lei Chen Yueqi Duan Zhilan Hu Jianjiang Feng Jie Zhou Jiwen Lu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Bridge-Prompt: Hin zum ordinalen Handlungsverständnis in Anleitungs-Videos

Muheng Li Lei Chen Yueqi Duan Zhilan Hu Jianjiang Feng Jie Zhou Jiwen Lu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bridge-Prompt: Hin zum ordinalen Handlungsverständnis in Anleitungs-Videos

Muheng Li Lei Chen Yueqi Duan Zhilan Hu Jianjiang Feng Jie Zhou Jiwen Lu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bridge-Prompt: Hin zum ordinalen Handlungsverständnis in Anleitungs-Videos

Muheng Li Lei Chen Yueqi Duan Zhilan Hu Jianjiang Feng Jie Zhou Jiwen Lu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters