HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Beziehungsidentifikation mit internem und externem linguistischen Wissensdistillat

Ruichi Yu; Ang Li; Vlad I. Morariu; Larry S. Davis

Zusammenfassung

Das Verstehen visueller Beziehungen beinhaltet die Identifizierung des Subjekts, des Objekts und eines Prädikats, das sie in Beziehung setzt. Wir nutzen die starken Korrelationen zwischen dem Prädikat und dem (Subjekt, Objekt)-Paar (sowohl semantisch als auch räumlich), um die Prädikate unter Berücksichtigung der Subjekte und Objekte vorherzusagen. Die gemeinsame Modellierung dieser drei Entitäten spiegelt ihre Beziehungen genauer wider, kompliziert jedoch das Lernen, da der semantische Raum der visuellen Beziehungen sehr groß ist und die Trainingsdaten begrenzt sind, insbesondere für seltene Beziehungen mit wenigen Instanzen. Um dies zu überwinden, verwenden wir sprachstatistisches Wissen zur Regularisierung des Lernens von visuellen Modellen. Dieses sprachliche Wissen gewinnen wir durch das Auswerten sowohl von Trainingsannotierungen (internen Wissen) als auch öffentlich zugänglichen Texten wie Wikipedia (externem Wissen), indem wir die bedingte Wahrscheinlichkeitsverteilung eines Prädikats gegeben einem (Subjekt, Objekt)-Paar berechnen. Anschließend kondensieren wir dieses Wissen in ein tiefes Modell, um eine bessere Generalisierung zu erreichen. Unsere experimentellen Ergebnisse auf den Datensätzen für Visuelle Beziehungserkennung (Visual Relationship Detection, VRD) und Visual Genome deuten darauf hin, dass unser Modell dank dieser sprachlichen Wissenskondensation erheblich besser abschneidet als die bislang besten Methoden, insbesondere bei der Vorhersage nicht gesehener Beziehungen (z.B. verbesserte Recall-Rate von 8,45 % auf 19,17 % im Zero-Shot-Testset von VRD).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visuelle Beziehungsidentifikation mit internem und externem linguistischen Wissensdistillat | Paper | HyperAI