AdsCVLR: Kommerzielle visuell-sprachliche Repräsentationsmodellierung im gesponserten Suchen
Sponsoringierte Suchanzeigen (Ads) erscheinen neben Suchergebnissen, wenn Verbraucher Produkte und Dienstleistungen in Suchmaschinen suchen. Als grundlegende Basis für Suchanzeigen hat die Relevanzmodellierung aufgrund der erheblichen Forschungsherausforderungen und des enormen praktischen Nutzens zunehmende Aufmerksamkeit erhalten. In diesem Artikel behandeln wir das Problem der multimodalen Modellierung in sponsoringierten Suchanzeigen, bei dem die Relevanz zwischen einer Nutzerabfrage und kommerziellen Anzeigen mit multimodalen strukturierten Informationen modelliert wird. Um dieses Problem zu lösen, schlagen wir eine Transformer-Architektur mit Ads-Daten auf Basis einer kommerziellen visuell-linguistischen Repräsentation (AdsCVLR) vor, die kontrastives Lernen nutzt und den Transformer-Encoder natürlicherweise durch ergänzende multimodale Eingaben erweitert, wodurch ein starker Aggregator für Bild-Text-Features entsteht. Zudem veröffentlichen wir eine öffentliche Werbedatenbank, die 480.000 annotierte Paare aus Suchanfrage und Anzeige mit strukturierten Informationen zu Bild, Titel, Verkäufer, Beschreibung usw. enthält. Empirisch evaluieren wir das AdsCVLR-Modell anhand eines großen industriellen Datensatzes, und die Ergebnisse aus Online- und Offline-Tests belegen die Überlegenheit unseres Ansatzes.