Un Cadre Post-hoc Efficace pour Réduire les Disparités de Tâches des Encodeurs de Texte pour la Recherche d'Images Composées

La recherche d'images composées (CIR) vise à retrouver une image cible en se basant sur une image de référence et un texte conditionnel, permettant des recherches d'images contrôlables. Les méthodes CIR Zero-Shot (ZS) courantes évitent la nécessité d'utiliser des triplets CIR coûteux pour l'entraînement en projetant les plongements d'images dans l'espace de plongement des tokens de texte, formant ainsi une requête composée pour la recherche. Cependant, nous soulignons une limitation inhérente à ces méthodes CIR basées sur la projection : un écart de tâche entre l'encodage du texte lors de l'entraînement préalable initial (texte $\leftrightarrow$ image) et la tâche cible CIR (image + texte $\leftrightarrow$ image), qui peut potentiellement avoir un impact négatif sur les performances de CIR. Pour réduire cet écart, une solution naïve consisterait à entraîner les encodeurs d'image et de texte avec des triplets CIR sous supervision. À la place, nous introduisons Reducing Task Discrepancy of Text Encoders (RTD), un cadre efficace post-hoc uniquement textuel qui complète les méthodes CIR basées sur la projection. Nous avons conçu un apprentissage par contraste textuel ancré sur la cible novateur visant à améliorer les capacités de l'encodeur de texte pour le CIR. Nous proposons également deux améliorations clés : (1) une stratégie d'échantillonnage par lots raffinée basée sur des exemples négatifs difficiles et (2) un schéma de concaténation raffiné pour atténuer davantage l'écart entre l'entraînement et l'inférence. L'intégration de RTD aux méthodes projectionnistes les plus avancées permet d'atteindre des performances comparables, voire supérieures, à celles des approches synthétiques les plus performantes basées sur des triplets CIR intensives en ressources, avec seulement 23 minutes d'entraînement supplémentaire sur 4 GPU A100 (jusqu'à $100\times$ plus rapide en entraînement). Notre code sera mis à disposition à l'acceptation.Note: - "Composed Image Retrieval" est traduit par "recherche d'images composées".- "Zero-Shot" est traduit par "Zero-Shot" car c'est un terme technique couramment utilisé en français.- "projection-based CIR methods" est traduit par "méthodes CIR basées sur la projection".- "target-anchored text contrastive learning" est traduit par "apprentissage par contraste textuel ancré sur la cible".- "hard negative-based refined batch sampling strategy" est traduit par "stratégie d'échantillonnage par lots raffinée basée sur des exemples négatifs difficiles".- "concatenation scheme" est traduit par "schéma de concaténation".