Command Palette
Search for a command to run...
Lernen der Relationsausrichtung für kalibrierte cross-modale Suche
Lernen der Relationsausrichtung für kalibrierte cross-modale Suche
Shuhuai Ren Junyang Lin Guangxiang Zhao Rui Men An Yang Jingren Zhou Xu Sun Hongxia Yang
Zusammenfassung
Trotz der Fortschritte großskaliger multimodaler Vortrainierungsansätze bleibt die Kreuzmodalauswertung, beispielsweise die Bild-Text-Abfrage, eine herausfordernde Aufgabe. Um die semantische Lücke zwischen den beiden Modalitäten zu schließen, konzentrieren sich bisherige Studien hauptsächlich auf die Ausrichtung von Wort-Regionen auf Objektebene und vernachlässigen dabei die Übereinstimmung zwischen sprachlichen Beziehungen zwischen Wörtern und visuellen Beziehungen zwischen Regionen. Die Vernachlässigung dieser Beziehungs-Konsistenz beeinträchtigt die kontextualisierte Darstellung von Bild-Text-Paaren und hemmt sowohl die Modellleistung als auch die Interpretierbarkeit. In diesem Artikel stellen wir zunächst ein neuartiges Maß, die Intra-modale Selbst-Attention-Distanz (ISD), vor, um die Beziehungs-Konsistenz durch die Messung der semantischen Distanz zwischen sprachlichen und visuellen Beziehungen zu quantifizieren. Daraufhin präsentieren wir Inter-modale Ausrichtung auf Intra-modale Selbst-Attention (IAIS), eine regulierte Trainingsmethode, die die ISD optimiert und die intra-modalen Selbst-Attention-Verteilungen beider Modalitäten gegenseitig durch inter-modale Ausrichtung kalibriert. Der IAIS-Regularisator steigert die Leistung etablierter Modelle auf den Datensätzen Flickr30k und MS COCO erheblich, was die Überlegenheit unseres Ansatzes belegt.