HyperAIHyperAI
vor 17 Tagen

CurlingNet: Zusammensetzende Lernmethoden zwischen Bildern und Text für die Fashion IQ-Daten

Youngjae Yu, Seunghwan Lee, Yuncheol Choi, Gunhee Kim
CurlingNet: Zusammensetzende Lernmethoden zwischen Bildern und Text für die Fashion IQ-Daten
Abstract

Wir präsentieren einen Ansatz namens CurlingNet, der die semantische Distanz der Zusammensetzung von Bild-Text-Einbettungen messen kann. Um eine effektive Bild-Text-Zusammensetzung für Daten im Modebereich zu erlernen, schlägt unser Modell zwei zentrale Komponenten vor. Erstens ermöglicht die Delivery die Transformation eines Quellbildes im Einbettungsraum. Zweitens betont die Sweeping komponentenbezogene Merkmale modebezogener Bilder im Einbettungsraum, die mit der Abfrage korrelieren. Hierzu nutzen wir einen kanalweisen Gating-Mechanismus. Unser einzelnes Modell erreicht eine bessere Leistung als vorherige State-of-the-Art-Modelle für Bild-Text-Zusammensetzung, darunter TIRG und FiLM. Wir nahmen am ersten Fashion-IQ-Wettbewerb auf ICCV 2019 teil, bei dem unser Ensemble-Modell eine der besten Leistungen erzielte.