HyperAIHyperAI
il y a 2 mois

Apprentissage de sous-espaces intermodaux pour la recherche d'images basée sur des croquis à grain fin

Peng Xu; Qiyue Yin; Yongye Huang; Yi-Zhe Song; Zhanyu Ma; Liang Wang; Tao Xiang; W. Bastiaan Kleijn; Jun Guo
Apprentissage de sous-espaces intermodaux pour la recherche d'images basée sur des croquis à grain fin
Résumé

La recherche d'images basée sur les croquis (SBIR) est un défi en raison de la différence inhérente entre le domaine des croquis et celui des photos. Contrairement aux représentations parfaitement pixelisées des photos, les croquis sont des rendus iconiques du monde réel, hautement abstraits. Par conséquent, l'utilisation directe d'indices visuels de bas niveau pour faire correspondre les croquis et les photos est insuffisante, car il est difficile d'établir un sous-espace commun de bas niveau qui traverse sémantiquement les deux modalités. La plupart des études existantes en SBIR n'abordent pas directement ce problème intermodal. Cela nous motive naturellement à explorer l'efficacité des méthodes de recherche intermodale dans le SBIR, qui ont été appliquées avec succès dans l'appariement image-texte. Dans cet article, nous présentons et comparons une série de méthodes d'apprentissage de sous-espaces intermodaux de pointe, et nous les évaluons sur deux jeux de données SBIR fine-grained récemment publiés. Grâce à une analyse approfondie des résultats expérimentaux, nous avons démontré que l'apprentissage de sous-espaces peut modéliser efficacement l'écart entre le domaine des croquis et celui des photos. De plus, nous tirons quelques enseignements clés pour orienter les futures recherches.