HyperAIHyperAI
vor 11 Tagen

Lernen der Relationsausrichtung für kalibrierte cross-modale Suche

Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
Lernen der Relationsausrichtung für kalibrierte cross-modale Suche
Abstract

Trotz der Fortschritte großskaliger multimodaler Vortrainierungsansätze bleibt die Kreuzmodalauswertung, beispielsweise die Bild-Text-Abfrage, eine herausfordernde Aufgabe. Um die semantische Lücke zwischen den beiden Modalitäten zu schließen, konzentrieren sich bisherige Studien hauptsächlich auf die Ausrichtung von Wort-Regionen auf Objektebene und vernachlässigen dabei die Übereinstimmung zwischen sprachlichen Beziehungen zwischen Wörtern und visuellen Beziehungen zwischen Regionen. Die Vernachlässigung dieser Beziehungs-Konsistenz beeinträchtigt die kontextualisierte Darstellung von Bild-Text-Paaren und hemmt sowohl die Modellleistung als auch die Interpretierbarkeit. In diesem Artikel stellen wir zunächst ein neuartiges Maß, die Intra-modale Selbst-Attention-Distanz (ISD), vor, um die Beziehungs-Konsistenz durch die Messung der semantischen Distanz zwischen sprachlichen und visuellen Beziehungen zu quantifizieren. Daraufhin präsentieren wir Inter-modale Ausrichtung auf Intra-modale Selbst-Attention (IAIS), eine regulierte Trainingsmethode, die die ISD optimiert und die intra-modalen Selbst-Attention-Verteilungen beider Modalitäten gegenseitig durch inter-modale Ausrichtung kalibriert. Der IAIS-Regularisator steigert die Leistung etablierter Modelle auf den Datensätzen Flickr30k und MS COCO erheblich, was die Überlegenheit unseres Ansatzes belegt.

Lernen der Relationsausrichtung für kalibrierte cross-modale Suche | Neueste Forschungsarbeiten | HyperAI