vor 2 Monaten

Bildretrieval mit textuellem Feedback durch Mehrgrößen-Unsicherheitsregularisierung

Chen, Yiyang ; Zheng, Zhedong ; Ji, Wei ; Qu, Leigang ; Chua, Tat-Seng

Abstract

Wir untersuchen die komponierte Bildsuche mit textbasierter Rückmeldung. Benutzer suchen das gewünschte Ziel schrittweise durch den Übergang von grobkörniger zu feinkörniger Rückmeldung. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf die letztere, d.h. die feinkörnige Suche, indem sie während des Trainings positive und negative Paare nutzen. Dieses paarbasierte Paradigma berücksichtigt nur den ein-zu-einen Abstand zwischen einem spezifischen Paar von Punkten, was nicht mit dem ein-zu-vielen Prozess der grobkörnigen Suchvorgänge übereinstimmt und die Rückrufrate beeinträchtigt. Um diese Lücke zu schließen, führen wir einen vereinheitlichten Lernansatz ein, der gleichzeitig grobkörnige und feinkörnige Suchvorgänge unter Berücksichtigung der mehrschichtigen Unsicherheit modelliert. Das zentrale Konzept der vorgeschlagenen Methode besteht darin, grobkörnige und feinkörnige Suchvorgänge als das Zuordnen von Datenpunkten mit großen und kleinen Schwankungen zu integrieren. Speziell enthält unsere Methode zwei Module: Unsicherheitsmodellierung und Unsicherheitsregularisierung. (1) Die Unsicherheitsmodellierung simuliert mehrschichtige Anfragen, indem sie identisch verteilte Schwankungen im Merkmalsraum einführt. (2) Auf Basis der Unsicherheitsmodellierung führen wir eine weitere Unsicherheitsregularisierung ein, um das Zuordnungsziel nach dem Schwankungsbereich anzupassen. Im Vergleich zu bestehenden Methoden verhindert die vorgeschlagene Strategie explizit, dass das Modell in frühen Phasen potentielle Kandidaten abweist, wodurch die Rückrufrate verbessert wird. Bei den drei öffentlichen Datensätzen FashionIQ, Fashion200k und Shoes hat die vorgeschlagene Methode jeweils eine Genauigkeit von +4,03 %, +3,38 % und +2,40 % Recall@50 gegenüber einer starken Baseline erreicht.