Supervised Contrastive Learning für die Produktübereinstimmung

Kontrastives Lernen hat in den letzten Jahren den Stand der Technik für zahlreiche Aufgaben im Bereich Computer Vision und Information Retrieval maßgeblich vorangetrieben. Dieser Posterbeitrag stellt die erste Arbeit dar, die überwachtes kontrastives Lernen auf die Aufgabe der Produktübereinstimmung im E-Commerce anwendet, wobei Produktangebote verschiedener Online-Shops verwendet werden. Genauer gesagt, setzen wir eine Technik des überwachten kontrastiven Lernens ein, um einen Transformer-Encoder vorzu trainieren, der anschließend anhand von Paar-Trainingsdaten für die Übereinstimmungsaufgabe feinabgestimmt wird. Darüber hinaus schlagen wir eine quellenbewusste Sampling-Strategie vor, die es ermöglicht, kontrastives Lernen auch für Anwendungsfälle einzusetzen, in denen die Trainingsdaten keine Produkt-IDs enthalten. Wir zeigen, dass die Kombination aus überwachtem kontrastivem Vortrainieren und quellenbewusstem Sampling die Leistungsfähigkeit auf mehreren etablierten Benchmarks deutlich verbessert: Für Abt-Buy erreichen wir einen F1-Score von 94,29 (eine Steigerung um +3,24 gegenüber dem vorherigen Stand der Technik), für Amazon-Google 79,28 (+3,7). Bei den WDC Computers-Datensätzen erzielen wir F1-Score-Verbesserungen zwischen +0,8 und +8,84, abhängig von der Größe des Trainingssets. Weitere Experimente mit Datenaugmentation und selbstüberwachtem kontrastivem Vortrainieren zeigen, dass die Datenaugmentation für kleinere Trainingsmengen hilfreich sein kann, während das selbstüberwachte kontrastive Vortrainieren aufgrund inhärenter Label-Rauschsignale zu einer signifikanten Leistungseinbuße führt. Wir schließen daher, dass kontrastives Vortrainieren ein großes Potenzial für Anwendungsfälle der Produktübereinstimmung besitzt, insbesondere wenn explizite Überwachung verfügbar ist.