vor 2 Monaten

Ein Effizientes Post-hoc Framework zur Reduktion der Aufgabenunterschiede von Textencodern für die Komponierte Bildsuche

Jaeseok Byun; Seokhyeon Jeong; Wonjae Kim; Sanghyuk Chun; Taesup Moon

Abstract

Composed Image Retrieval (CIR) zielt darauf ab, ein Zielbild basierend auf einem Referenzbild und bedingenden Text zu retrivieren, was kontrollierte Bildsuchen ermöglicht. Die gängigen Zero-Shot (ZS)-CIR-Methoden umgehen die Notwendigkeit teurer Trainings-CIR-Tripel, indem sie Bilddarstellungen in den Texttoken-Darstellungsraum projizieren, um eine zusammengesetzte Abfrage für die Retrivierung zu bilden. Dennoch heben wir eine inhärente Beschränkung dieser projektionsbasierten CIR hervor: eine Aufgabenunterschiedlichkeit der Textencoder zwischen der ursprünglichen Vortrainingsaufgabe der Encoder (Text $\leftrightarrow$ Bild) und der Ziel-CIR-Aufgabe (Bild + Text $\leftrightarrow$ Bild), die potenziell die CIR-Leistung negativ beeinflusst. Um diesen Unterschied zu verringern, wäre eine naive Lösung, sowohl die Bild- als auch die Textencoder mit CIR-Tripeln in überwachter Weise zu trainieren. Stattdessen führen wir Reducing Task Discrepancy of Text Encoders (RTD) ein, einen effizienten textbasierten Post-hoc-Rahmen, der projektionsbasierte CIR-Methoden ergänzt. Wir entwickeln ein neuartiges, zielankorisches textkontrastives Lernen, das darauf abzielt, die Fähigkeiten des Textencoders für CIR zu verbessern. Zudem schlagen wir zwei wesentliche Verbesserungen vor: (1) eine batch-basierte Selektionsstrategie mit schweren Negativen und (2) ein verfeinertes Verkettungsschema, um den Unterschied zwischen Training und Inferenz weiter zu reduzieren. Die Integration von RTD in standartechnologische projektionsbasierte Methoden erreicht eine Leistung, die vergleichbar oder sogar überlegen ist gegenüber ressourcenintensiven standartechnologischen synthetischen CIR-Tripel-basierten Ansätzen, und zwar nur mit 23 Minuten zusätzlichen Trainings auf 4 A100 GPUs (bis zu $100\times$ schneller im Training). Unser Code wird bei Annahme verfügbar sein.请注意，"retrivieren" 是 "retrieve" 的德语翻译，但通常在科技文献中会使用 "abrufen" 或 "suchen". 因此，为了更符合德语的表达习惯，建议将 "retrivieren" 替换为 "abrufen".修正后的版本如下：Composed Image Retrieval (CIR) zielt darauf ab, ein Zielbild basierend auf einem Referenzbild und bedingenden Text abzurufen, was kontrollierte Bildsuchen ermöglicht. Die gängigen Zero-Shot (ZS)-CIR-Methoden umgehen die Notwendigkeit teurer Trainings-CIR-Tripel, indem sie Bilddarstellungen in den Texttoken-Darstellungsraum projizieren, um eine zusammengesetzte Abfrage für die Abrufung zu bilden. Dennoch heben wir eine inhärente Beschränkung dieser projektionsbasierten CIR hervor: eine Aufgabenunterschiedlichkeit der Textencoder zwischen der ursprünglichen Vortrainingsaufgabe der Encoder (Text $\leftrightarrow$ Bild) und der Ziel-CIR-Aufgabe (Bild + Text $\leftrightarrow$ Bild), die potenziell die CIR-Leistung negativ beeinflusst. Um diesen Unterschied zu verringern, wäre eine naive Lösung, sowohl die Bild- als auch die Textencoder mit CIR-Tripeln in überwachter Weise zu trainieren. Stattdessen führen wir Reducing Task Discrepancy of Text Encoders (RTD) ein, einen effizienten textbasierten Post-hoc-Rahmen, der projektionsbasierte CIR-Methoden ergänzt. Wir entwickeln ein neuartiges zielankorisches textkontrastives Lernen zur Steigerung der Fähigkeiten des Textencoders für CIR. Zudem schlagen wir zwei wesentliche Verbesserungen vor: (1) eine batch-basierte Selektionsstrategie mit schweren Negativen und (2) ein verfeinertes Verkettungsschema zur weiteren Minderung des Unterschieds zwischen Training und Inferenz. Die Integration von RTD in standartechnologische projektionsbasierte Methoden erreicht eine Leistung, die vergleichbar oder sogar überlegen ist gegenüber ressourcenintensiven standartechnologischen synthetischen CIR-Tripel-basierten Ansätzen – dies nur durch 23 Minuten zusätzlichen Trainings auf 4 A100 GPUs (bis zu $100\times$ schneller im Training). Unser Code wird bei Annahme verfügbar sein.