HyperAIHyperAI
vor 11 Tagen

Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche

Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong, Qi Wu
Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche
Abstract

Cross-Modal gesponserte Suchergebnisse zeigen mehrmodale Anzeigen (ads), wenn Nutzer über natürliche Sprachanfragen in Suchmaschinen nach gewünschten Produkten suchen. Da mehrmodale Anzeigen ergänzende Informationen für die Übereinstimmung zwischen Suchanfrage und Anzeige liefern, ist die Fähigkeit, spezifische Informationen aus Bildern und Texten präzise auszurichten, entscheidend für eine genaue und flexible gesponserte Suche. Traditionelle Forschungsansätze konzentrieren sich hauptsächlich auf die Modellierung impliziter Korrelationen zwischen Bildern und Texten zur Anfrage-Anzeige-Übereinstimmung und ignorieren dabei die Ausrichtung detaillierter Produktinformationen, was zu suboptimalen Suchleistungen führt. In dieser Arbeit stellen wir ein einfaches Ausrichtungsnetzwerk vor, das fein granulare visuelle Teile in Anzeigenbildern explizit den entsprechenden Textteilen zuordnet. Dabei nutzt das Modell die Konsistenz der Ko-Existenzstruktur zwischen visuellen und sprachlichen Räumen, ohne teure annotierte Trainingsdaten zu erfordern. Darüber hinaus entwickeln wir ein neuartiges Modell für die cross-modale gesponserte Suche, das die cross-modale Ausrichtung und die Anfrage-Anzeige-Übereinstimmung in zwei getrennten Prozessen effektiv durchführt. Auf diese Weise wird die mehrmodale Eingabe im selben Sprachraum abgebildet, was eine überlegene Leistung ermöglicht – und zwar bereits mit nur der Hälfte der Trainingsdaten. Unser Modell erreicht auf einem großen kommerziellen Datensatz eine Leistungssteigerung gegenüber den besten bisherigen Ansätzen um 2,57 %. Neben der gesponserten Suche ist unsere Ausrichtungsmethode auch für allgemeine cross-modale Suchaufgaben anwendbar. Wir evaluieren die Methode anhand einer typischen cross-modalen Retrieval-Aufgabe auf dem MSCOCO-Datensatz und belegen eine konsistente Verbesserung der Leistung, was die Verallgemeinerungsfähigkeit unseres Ansatzes unterstreicht. Der Quellcode ist unter https://github.com/Pter61/AlignCMSS/ verfügbar.

Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche | Neueste Forschungsarbeiten | HyperAI