HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Situationserkennung: Visuelle semantische Rollenmarkierung für die Bildverstehens

{Luke Zettlemoyer Ali Farhadi Mark Yatskar}

Situationserkennung: Visuelle semantische Rollenmarkierung für die Bildverstehens

Abstract

Diese Arbeit führt das Konzept der Situationserkennung ein, das darin besteht, eine präzise Zusammenfassung der Situation zu generieren, die ein Bild darstellt, und zwar unter Berücksichtigung von: (1) der Hauptaktivität (z. B. Scheren), (2) der beteiligten Akteure, Objekte, Substanzen und Orte (z. B. Mann, Schere, Schaf, Wolle und Feld) sowie vor allem (3) der Rollen, die diese Teilnehmer in der Aktivität spielen (z. B. der Mann schert, die Schere ist sein Werkzeug, die Wolle wird vom Schaf abgeschnitten, und das Scheren findet auf einem Feld statt). Wir nutzen FrameNet, ein von Linguisten entwickeltes Verb- und Rollenlexikon, um einen umfassenden Raum möglicher Situationen zu definieren, und sammeln eine großskalige Datensammlung mit über 500 Aktivitäten, 1.700 Rollen, 11.000 Objekten, 125.000 Bildern und 200.000 eindeutigen Situationen. Zudem stellen wir strukturierte Vorhersage-Baselines vor und zeigen, dass die situationsspezifische Vorhersage von Objekten und Aktivitäten in aktivitätszentrierten Bildern die unabhängige Erkennung von Objekten und Aktivitäten übertrifft.

Benchmarks

BenchmarkMethodikMetriken
grounded-situation-recognition-on-swigCRF
Top-1 Verb: 32.34
Top-1 Verb u0026 Value: 24.64
Top-5 Verbs: 58.88
Top-5 Verbs u0026 Value: 42.76
situation-recognition-on-imsituCRF
Top-1 Verb: 32.34
Top-1 Verb u0026 Value: 24.64
Top-5 Verbs: 58.88
Top-5 Verbs u0026 Value: 42.76

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Situationserkennung: Visuelle semantische Rollenmarkierung für die Bildverstehens | Forschungsarbeiten | HyperAI