HyperAIHyperAI
vor 17 Tagen

Situationserkennung: Visuelle semantische Rollenmarkierung für die Bildverstehens

{Luke Zettlemoyer, Ali Farhadi, Mark Yatskar}
Situationserkennung: Visuelle semantische Rollenmarkierung für die Bildverstehens
Abstract

Diese Arbeit führt das Konzept der Situationserkennung ein, das darin besteht, eine präzise Zusammenfassung der Situation zu generieren, die ein Bild darstellt, und zwar unter Berücksichtigung von: (1) der Hauptaktivität (z. B. Scheren), (2) der beteiligten Akteure, Objekte, Substanzen und Orte (z. B. Mann, Schere, Schaf, Wolle und Feld) sowie vor allem (3) der Rollen, die diese Teilnehmer in der Aktivität spielen (z. B. der Mann schert, die Schere ist sein Werkzeug, die Wolle wird vom Schaf abgeschnitten, und das Scheren findet auf einem Feld statt). Wir nutzen FrameNet, ein von Linguisten entwickeltes Verb- und Rollenlexikon, um einen umfassenden Raum möglicher Situationen zu definieren, und sammeln eine großskalige Datensammlung mit über 500 Aktivitäten, 1.700 Rollen, 11.000 Objekten, 125.000 Bildern und 200.000 eindeutigen Situationen. Zudem stellen wir strukturierte Vorhersage-Baselines vor und zeigen, dass die situationsspezifische Vorhersage von Objekten und Aktivitäten in aktivitätszentrierten Bildern die unabhängige Erkennung von Objekten und Aktivitäten übertrifft.