Apprentissage de concepts sémantiques et d'ordre pour l'appariement d'images et de phrases

L'appariement d'images et de phrases a connu des progrès considérables récemment, mais il reste un défi en raison du grand écart visuel-sémantique. Ce problème provient principalement du fait que la représentation d'une image au niveau des pixels manque généralement d'informations sémantiques de haut niveau, telles que celles présentes dans sa phrase correspondante. Dans ce travail, nous proposons un modèle d'appariement d'images et de phrases enrichi sémantiquement, capable d'améliorer la représentation des images en apprenant des concepts sémantiques et en les organisant dans un ordre sémantique correct. Étant donné une image, nous utilisons tout d'abord un CNN multi-régions multi-étiquettes pour prédire ses concepts sémantiques, y compris les objets, les propriétés, les actions, etc. Ensuite, compte tenu du fait que différents ordres de concepts sémantiques conduisent à des significations sémantiques variées, nous employons un schéma de génération de phrases à portes contextuelles pour l'apprentissage de l'ordre sémantique. Ce schéma utilise simultanément le contexte global de l'image contenant les relations entre les concepts comme référence et l'ordre sémantique réel dans la phrase correspondante comme supervision. Après avoir obtenu la représentation améliorée de l'image, nous apprenons la représentation de la phrase avec un LSTM conventionnel, puis effectuons conjointement l'appariement d'images et de phrases ainsi que la génération de phrases pour l'apprentissage du modèle. De nombreuses expériences montrent l'efficacité des concepts et de l'ordre sémantiques appris par notre modèle, en atteignant des résultats d'état de l'art sur deux jeux de données基准数据集 (benchmark datasets) publics.