vor 8 Monaten

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Zusammenfassung

Ein kurzes Video kann die Entwicklung mehrerer Ereignisse und eine interessante Handlung enthalten. Ein Mensch muss sowohl jedes Ereignis in jedem Bildausschnitt erfassen als auch diese miteinander verknüpfen, um die dahinterliegende Geschichte zu verstehen. In dieser Arbeit stellen wir einen neuen Benchmark für die Verständnisanalyse von Mehrbildausschnitt-Videos vor: Shot2Story, der detaillierte Bildausschnitt-Level-Beschreibungen, umfassende Videozusammenfassungen und Frage-Antwort-Paare enthält. Um ein besseres semantisches Verständnis von Videos zu ermöglichen, bieten wir Beschreibungen sowohl für visuelle Signale als auch für menschliche Erzählungen. Wir haben mehrere unterschiedliche Aufgaben konzipiert, darunter das Beschreiben einzelner Bildausschnitte (single-shot video captioning), das Zusammenfassen von Mehrbildausschnitt-Videos (multi-shot video summarization) und das Beantworten von Fragen zu Mehrbildausschnitt-Videos (multi-shot video question answering). Vorläufige Experimente zeigen einige Herausforderungen bei der Generierung langer und umfassender Videozusammenfassungen für Mehrbildausschnitt-Videos. Dennoch erreichen die generierten unvollkommenen Zusammenfassungen bereits wettbewerbsfähige Leistungen bei bestehenden Videoverstehensaufgaben wie Video-Fragebeantwortung und fördern damit eine bisher wenig untersuchte Einstellung des Videoverstehens mit detaillierten Zusammenfassungen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Video Captioning

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Video Captioning

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos | Paper | HyperAI

Command Palette

Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters