RelViT: konzeptgeleiteter Vision Transformer für visuelle relationale Schlussfolgerung

Die Interpretation visueller Beziehungen ist zentral für die menschliche Wahrnehmung der visuellen Welt. Dieser Aufgabenbereich bleibt für aktuelle tiefen Lernalgorithmen herausfordernd, da er die gleichzeitige Bewältigung dreier zentraler technischer Probleme erfordert: 1) die Identifizierung von Objektentitäten und deren Eigenschaften, 2) die Ableitung semantischer Beziehungen zwischen Paaren von Entitäten sowie 3) die Generalisierung auf neue Kombinationen von Objekten und Beziehungen, also systematische Generalisierung. In dieser Arbeit nutzen wir Vision-Transformer (ViTs) als Basismodell für visuelles Schließen und verbessern die Schlussfolgerungsfähigkeit von ViTs durch eine gezielte Nutzung von Konzepten, die als Objektentitäten und deren Beziehungen definiert sind. Konkret führen wir ein neuartiges Konzept-Feature-Wörterbuch ein, das eine flexible Abfrage von Bilddatenfeatures während des Trainings mittels Konzept-Schlüssel ermöglicht. Dieses Wörterbuch erlaubt zwei neue, konzeptgesteuerte Hilfsaufgaben: 1) eine globale Aufgabe zur Förderung relationalen Schließens und 2) eine lokale Aufgabe zur Unterstützung der semantischen, objektzentrierten Korrespondenzlernung. Um die systematische Generalisierung visueller Schließmodelle zu evaluieren, führen wir systematische Aufteilungen für die etablierten Benchmarks HICO und GQA ein. Wir zeigen, dass das resultierende Modell, das Concept-guided Vision Transformer (kurz: RelViT), gegenüber früheren Ansätzen auf HICO und GQA jeweils um 16 % und 13 % im ursprünglichen Split sowie um 43 % und 18 % im systematischen Split deutlich übertrifft. Zusätzlich ergeben unsere Ablationsanalysen die Kompatibilität unseres Modells mit mehreren ViT-Varianten sowie seine Robustheit gegenüber Hyperparametern.