HyperAIHyperAI
vor 2 Monaten

Situationserkennung auf Basis von Transformers

Cho, Junhyeong ; Yoon, Youngseok ; Lee, Hyeonjun ; Kwak, Suha
Situationserkennung auf Basis von Transformers
Abstract

Grounded Situation Recognition (GSR) ist die Aufgabe, bei der nicht nur eine auffällige Aktion (Verb) klassifiziert wird, sondern auch Entitäten (Nomen) zusammen mit ihren semantischen Rollen und deren Positionen im gegebenen Bild vorhergesagt werden. Inspiriert von dem bemerkenswerten Erfolg von Transformers in visuellen Aufgaben, schlagen wir ein GSR-Modell vor, das auf einer Transformer-Encoder-Decoder-Architektur basiert. Der Aufmerksamheitsmechanismus unseres Modells ermöglicht eine genaue Verb-Klassifikation durch effektives Erfassen hochstufiger semantischer Merkmale eines Bildes und erlaubt dem Modell, flexibel mit den komplexen und bildabhängigen Beziehungen zwischen den Entitäten umzugehen, was zu einer verbesserten Nomen-Klassifikation und -Lokalisierung führt. Unser Modell ist die erste Transformer-Architektur für GSR und erreicht den aktuellen Stand der Technik in jeder Bewertungsmaßzahl des SWiG-Benchmarks. Unser Code ist unter https://github.com/jhcho99/gsrtr verfügbar.

Situationserkennung auf Basis von Transformers | Neueste Forschungsarbeiten | HyperAI