Situationserkennung: Visuelle semantische Rollenmarkierung für die Bildverstehens
{Luke Zettlemoyer Ali Farhadi Mark Yatskar}

Abstract
Diese Arbeit führt das Konzept der Situationserkennung ein, das darin besteht, eine präzise Zusammenfassung der Situation zu generieren, die ein Bild darstellt, und zwar unter Berücksichtigung von: (1) der Hauptaktivität (z. B. Scheren), (2) der beteiligten Akteure, Objekte, Substanzen und Orte (z. B. Mann, Schere, Schaf, Wolle und Feld) sowie vor allem (3) der Rollen, die diese Teilnehmer in der Aktivität spielen (z. B. der Mann schert, die Schere ist sein Werkzeug, die Wolle wird vom Schaf abgeschnitten, und das Scheren findet auf einem Feld statt). Wir nutzen FrameNet, ein von Linguisten entwickeltes Verb- und Rollenlexikon, um einen umfassenden Raum möglicher Situationen zu definieren, und sammeln eine großskalige Datensammlung mit über 500 Aktivitäten, 1.700 Rollen, 11.000 Objekten, 125.000 Bildern und 200.000 eindeutigen Situationen. Zudem stellen wir strukturierte Vorhersage-Baselines vor und zeigen, dass die situationsspezifische Vorhersage von Objekten und Aktivitäten in aktivitätszentrierten Bildern die unabhängige Erkennung von Objekten und Aktivitäten übertrifft.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| grounded-situation-recognition-on-swig | CRF | Top-1 Verb: 32.34 Top-1 Verb u0026 Value: 24.64 Top-5 Verbs: 58.88 Top-5 Verbs u0026 Value: 42.76 |
| situation-recognition-on-imsitu | CRF | Top-1 Verb: 32.34 Top-1 Verb u0026 Value: 24.64 Top-5 Verbs: 58.88 Top-5 Verbs u0026 Value: 42.76 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.