HyperAIHyperAI
vor 2 Monaten

Dynamisches Szenenverstehen aus visuellen und sprachlichen Repräsentationen

Pruss, Shahaf ; Alper, Morris ; Averbuch-Elor, Hadar
Dynamisches Szenenverstehen aus visuellen und sprachlichen Repräsentationen
Abstract

Bilder, die komplexe, dynamische Szenen darstellen, sind herausfordernd für eine automatische Analyse und erfordern sowohl ein hochrangiges Verständnis der Gesamtsituation als auch eine detaillierte Identifizierung der beteiligten Entitäten und ihrer Interaktionen. Aktuelle Ansätze verwenden unterschiedliche Methoden, die auf Teilbereiche wie Situationserkennung sowie die Detektion von Mensch-Mensch- und Mensch-Objekt-Interaktionen abgestimmt sind. Allerdings haben jüngste Fortschritte im Bereich der Bildverarbeitung oft webbasierte visuelle-sprachliche (V&L) Repräsentationen genutzt, um aufwändige task-spezifische Ingenieursarbeiten zu vermeiden. In dieser Arbeit schlagen wir einen Rahmen für dynamische Szenerkenntnisaufgaben vor, indem wir Wissen aus modernen, festgelegten V&L-Repräsentationen nutzen. Durch das Generische Formulieren dieser Aufgaben – sei es als Vorhersage und Analyse strukturierter Texte oder durch direkte Konkatenierung von Repräsentationen an den Eingang bestehender Modelle – erreichen wir Stand-of-the-Art-Ergebnisse mit einer minimalen Anzahl von trainierbaren Parametern im Vergleich zu existierenden Ansätzen. Darüber hinaus zeigt unsere Analyse des dynamischen Wissens dieser Repräsentationen, dass neuere, leistungsfähigere Repräsentationen effektiv die Semantik dynamischer Szenen kodieren, was diesen Ansatz erst neu möglich macht.

Dynamisches Szenenverstehen aus visuellen und sprachlichen Repräsentationen | Neueste Forschungsarbeiten | HyperAI