vor 6 Monaten

Zusammenfassung

Cross-Modal gesponserte Suchergebnisse zeigen mehrmodale Anzeigen (ads), wenn Nutzer über natürliche Sprachanfragen in Suchmaschinen nach gewünschten Produkten suchen. Da mehrmodale Anzeigen ergänzende Informationen für die Übereinstimmung zwischen Suchanfrage und Anzeige liefern, ist die Fähigkeit, spezifische Informationen aus Bildern und Texten präzise auszurichten, entscheidend für eine genaue und flexible gesponserte Suche. Traditionelle Forschungsansätze konzentrieren sich hauptsächlich auf die Modellierung impliziter Korrelationen zwischen Bildern und Texten zur Anfrage-Anzeige-Übereinstimmung und ignorieren dabei die Ausrichtung detaillierter Produktinformationen, was zu suboptimalen Suchleistungen führt. In dieser Arbeit stellen wir ein einfaches Ausrichtungsnetzwerk vor, das fein granulare visuelle Teile in Anzeigenbildern explizit den entsprechenden Textteilen zuordnet. Dabei nutzt das Modell die Konsistenz der Ko-Existenzstruktur zwischen visuellen und sprachlichen Räumen, ohne teure annotierte Trainingsdaten zu erfordern. Darüber hinaus entwickeln wir ein neuartiges Modell für die cross-modale gesponserte Suche, das die cross-modale Ausrichtung und die Anfrage-Anzeige-Übereinstimmung in zwei getrennten Prozessen effektiv durchführt. Auf diese Weise wird die mehrmodale Eingabe im selben Sprachraum abgebildet, was eine überlegene Leistung ermöglicht – und zwar bereits mit nur der Hälfte der Trainingsdaten. Unser Modell erreicht auf einem großen kommerziellen Datensatz eine Leistungssteigerung gegenüber den besten bisherigen Ansätzen um 2,57 %. Neben der gesponserten Suche ist unsere Ausrichtungsmethode auch für allgemeine cross-modale Suchaufgaben anwendbar. Wir evaluieren die Methode anhand einer typischen cross-modalen Retrieval-Aufgabe auf dem MSCOCO-Datensatz und belegen eine konsistente Verbesserung der Leistung, was die Verallgemeinerungsfähigkeit unseres Ansatzes unterstreicht. Der Quellcode ist unter https://github.com/Pter61/AlignCMSS/ verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Multimodale Darstellung

Yuanmin Tang Jing Yu Keke Gai Yujing Wang Yue Hu Gang Xiong Qi Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Multimodale Darstellung

Yuanmin Tang Jing Yu Keke Gai Yujing Wang Yue Hu Gang Xiong Qi Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche | Paper | HyperAI

Command Palette

Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche

Yuanmin Tang Jing Yu Keke Gai Yujing Wang Yue Hu Gang Xiong Qi Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche

Yuanmin Tang Jing Yu Keke Gai Yujing Wang Yue Hu Gang Xiong Qi Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Align before Search: Die Ausrichtung von Werbebildern an Text für eine präzise multimodale bezahlte Suche

Yuanmin Tang Jing Yu Keke Gai Yujing Wang Yue Hu Gang Xiong Qi Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters