HyperAIHyperAI
vor 2 Monaten

Situationserkennung auf Grundlage von Daten

Pratt, Sarah ; Yatskar, Mark ; Weihs, Luca ; Farhadi, Ali ; Kembhavi, Aniruddha
Abstract

Wir stellen die Grounded Situation Recognition (GSR) vor, eine Aufgabe, die strukturierte semantische Zusammenfassungen von Bildern erzeugt, die folgende Aspekte beschreiben: die primäre Aktivität, die beteiligten Entitäten mit ihren Rollen (z.B. Akteur, Werkzeug) und die Bounding-Box-Groundings der Entitäten. Die GSR stellt wichtige technische Herausforderungen dar: die Identifizierung semantischer Salienz, die Kategorisierung und Lokalisierung einer großen und vielfältigen Menge an Entitäten, das Überwinden semantischer Sparsamkeit und die Auflösung von Rollenambiguitäten. Zudem ist GSR im Gegensatz zu Bildunterschriften leichter zu evaluieren. Um diese neue Aufgabe zu untersuchen, haben wir den Situations With Groundings (SWiG)-Datensatz erstellt, der 278.336 Bounding-Box-Groundings zu den 11.538 Entitätsklassen des IMSITU-Datensatzes hinzufügt. Wir schlagen einen Joint Situation Localizer vor und zeigen, dass das gemeinsame Vorhersagen von Szenarien und Groundings durch End-to-End-Training deutlich besser abschneidet als unabhängiges Training auf der gesamten Grounding-Metrik-Suite mit relativen Verbesserungen zwischen 8 % und 32 %. Schließlich präsentieren wir erste Ergebnisse in drei spannenden zukünftigen Richtungen, die durch unsere Modelle ermöglicht werden: bedingte Abfragen, visuelle Verkettung und semantisch bewusste bildbasierte Retrieval mit Grounding. Der Quellcode und die Daten sind unter https://prior.allenai.org/projects/gsr verfügbar.