GEB+: Eine Benchmarkeinrichtung für generische Ereignisgrenzen, Beschriftung und Auffindung

Die Kognitionsforschung hat gezeigt, dass Menschen Videos in Form von Ereignissen wahrnehmen, die durch Zustandsänderungen dominanter Subjekte getrennt sind. Zustandsänderungen lösen neue Ereignisse aus und sind unter der großen Menge an redundanten Informationen, die wahrgenommen werden, besonders nützlich. Bisherige Forschungen konzentrierten sich jedoch auf das allgemeine Verständnis von Segmenten, ohne die feingranularen Zustandsänderungen im Inneren zu bewerten. In dieser Arbeit stellen wir einen neuen Datensatz namens Kinetic-GEB+ vor. Der Datensatz umfasst über 170.000 Grenzen, die mit Bildunterschriften (Captions) versehen sind, die Zustandsänderungen in generischen Ereignissen in 12.000 Videos beschreiben. Auf Basis dieses neuen Datensatzes schlagen wir drei Aufgaben vor, die zur Entwicklung eines feingranulareren, robusteren und menschenähnlicheren Verständnisses von Videos durch Zustandsänderungen beitragen sollen. Wir evaluieren zahlreiche repräsentative Baseline-Methoden in unserem Datensatz und entwickeln dazu eine neue TPD (Temporal-based Pairwise Difference)-Modellierungsmethode für visuelle Unterschiede, mit der signifikante Leistungsverbesserungen erzielt werden können. Darüber hinaus zeigen die Ergebnisse, dass es noch erhebliche Herausforderungen für aktuelle Methoden gibt, insbesondere bei der Nutzung verschiedener Granularitäten, der Darstellung visueller Unterschiede und der genauen Lokalisierung von Zustandsänderungen. Eine weitere Analyse ergab, dass unser Datensatz die Entwicklung stärkerer Methoden zur Verarbeitung von Zustandsänderungen fördern kann und damit das Videoverständnis auf einem höheren Niveau verbessert wird. Der Datensatz einschließlich der Videos und Grenzen ist unter https://yuxuan-w.github.io/GEB-plus/ verfügbar.