HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen der Relationsausrichtung für kalibrierte cross-modale Suche

Shuhuai Ren Junyang Lin Guangxiang Zhao Rui Men An Yang Jingren Zhou Xu Sun Hongxia Yang

Zusammenfassung

Trotz der Fortschritte großskaliger multimodaler Vortrainierungsansätze bleibt die Kreuzmodalauswertung, beispielsweise die Bild-Text-Abfrage, eine herausfordernde Aufgabe. Um die semantische Lücke zwischen den beiden Modalitäten zu schließen, konzentrieren sich bisherige Studien hauptsächlich auf die Ausrichtung von Wort-Regionen auf Objektebene und vernachlässigen dabei die Übereinstimmung zwischen sprachlichen Beziehungen zwischen Wörtern und visuellen Beziehungen zwischen Regionen. Die Vernachlässigung dieser Beziehungs-Konsistenz beeinträchtigt die kontextualisierte Darstellung von Bild-Text-Paaren und hemmt sowohl die Modellleistung als auch die Interpretierbarkeit. In diesem Artikel stellen wir zunächst ein neuartiges Maß, die Intra-modale Selbst-Attention-Distanz (ISD), vor, um die Beziehungs-Konsistenz durch die Messung der semantischen Distanz zwischen sprachlichen und visuellen Beziehungen zu quantifizieren. Daraufhin präsentieren wir Inter-modale Ausrichtung auf Intra-modale Selbst-Attention (IAIS), eine regulierte Trainingsmethode, die die ISD optimiert und die intra-modalen Selbst-Attention-Verteilungen beider Modalitäten gegenseitig durch inter-modale Ausrichtung kalibriert. Der IAIS-Regularisator steigert die Leistung etablierter Modelle auf den Datensätzen Flickr30k und MS COCO erheblich, was die Überlegenheit unseres Ansatzes belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp