Visuelle Beziehungsidentifikation mit internem und externem linguistischen Wissensdistillat

Das Verstehen visueller Beziehungen beinhaltet die Identifizierung des Subjekts, des Objekts und eines Prädikats, das sie in Beziehung setzt. Wir nutzen die starken Korrelationen zwischen dem Prädikat und dem (Subjekt, Objekt)-Paar (sowohl semantisch als auch räumlich), um die Prädikate unter Berücksichtigung der Subjekte und Objekte vorherzusagen. Die gemeinsame Modellierung dieser drei Entitäten spiegelt ihre Beziehungen genauer wider, kompliziert jedoch das Lernen, da der semantische Raum der visuellen Beziehungen sehr groß ist und die Trainingsdaten begrenzt sind, insbesondere für seltene Beziehungen mit wenigen Instanzen. Um dies zu überwinden, verwenden wir sprachstatistisches Wissen zur Regularisierung des Lernens von visuellen Modellen. Dieses sprachliche Wissen gewinnen wir durch das Auswerten sowohl von Trainingsannotierungen (internen Wissen) als auch öffentlich zugänglichen Texten wie Wikipedia (externem Wissen), indem wir die bedingte Wahrscheinlichkeitsverteilung eines Prädikats gegeben einem (Subjekt, Objekt)-Paar berechnen. Anschließend kondensieren wir dieses Wissen in ein tiefes Modell, um eine bessere Generalisierung zu erreichen. Unsere experimentellen Ergebnisse auf den Datensätzen für Visuelle Beziehungserkennung (Visual Relationship Detection, VRD) und Visual Genome deuten darauf hin, dass unser Modell dank dieser sprachlichen Wissenskondensation erheblich besser abschneidet als die bislang besten Methoden, insbesondere bei der Vorhersage nicht gesehener Beziehungen (z.B. verbesserte Recall-Rate von 8,45 % auf 19,17 % im Zero-Shot-Testset von VRD).