HyperAIHyperAI

Command Palette

Search for a command to run...

GEB+: Eine Benchmarkeinrichtung für generische Ereignisgrenzen, Beschriftung und Auffindung

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

Zusammenfassung

Die Kognitionsforschung hat gezeigt, dass Menschen Videos in Form von Ereignissen wahrnehmen, die durch Zustandsänderungen dominanter Subjekte getrennt sind. Zustandsänderungen lösen neue Ereignisse aus und sind unter der großen Menge an redundanten Informationen, die wahrgenommen werden, besonders nützlich. Bisherige Forschungen konzentrierten sich jedoch auf das allgemeine Verständnis von Segmenten, ohne die feingranularen Zustandsänderungen im Inneren zu bewerten. In dieser Arbeit stellen wir einen neuen Datensatz namens Kinetic-GEB+ vor. Der Datensatz umfasst über 170.000 Grenzen, die mit Bildunterschriften (Captions) versehen sind, die Zustandsänderungen in generischen Ereignissen in 12.000 Videos beschreiben. Auf Basis dieses neuen Datensatzes schlagen wir drei Aufgaben vor, die zur Entwicklung eines feingranulareren, robusteren und menschenähnlicheren Verständnisses von Videos durch Zustandsänderungen beitragen sollen. Wir evaluieren zahlreiche repräsentative Baseline-Methoden in unserem Datensatz und entwickeln dazu eine neue TPD (Temporal-based Pairwise Difference)-Modellierungsmethode für visuelle Unterschiede, mit der signifikante Leistungsverbesserungen erzielt werden können. Darüber hinaus zeigen die Ergebnisse, dass es noch erhebliche Herausforderungen für aktuelle Methoden gibt, insbesondere bei der Nutzung verschiedener Granularitäten, der Darstellung visueller Unterschiede und der genauen Lokalisierung von Zustandsänderungen. Eine weitere Analyse ergab, dass unser Datensatz die Entwicklung stärkerer Methoden zur Verarbeitung von Zustandsänderungen fördern kann und damit das Videoverständnis auf einem höheren Niveau verbessert wird. Der Datensatz einschließlich der Videos und Grenzen ist unter https://yuxuan-w.github.io/GEB-plus/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp