Accorder plus d'attention à la saillance : légendage d'images avec attention à la saillance et au contexte

La légendisation d'images a récemment attiré beaucoup d'attention grâce aux réalisations impressionnantes obtenues par les architectures de légendisation profonde, qui combinent des Réseaux Neuronaux Convolutifs pour extraire des représentations d'images et des Réseaux Neuronaux Récursifs pour générer les légendes correspondantes. Parallèlement, un effort de recherche important a été consacré au développement de modèles de prédiction de la saillance, capables de prédire les fixations oculaires humaines. Bien que l'information de saillance puisse être utile pour conditionner une architecture de légendisation d'images, en fournissant une indication de ce qui est saillant et de ce qui ne l'est pas, la recherche peine encore à intégrer ces deux techniques. Dans cette étude, nous proposons une approche de légendisation d'images dans laquelle un réseau neuronal récurrent génératif peut se concentrer sur différentes parties de l'image d'entrée lors de la génération de la légende, en exploitant la condition donnée par un modèle de prédiction de saillance sur les parties saillantes et contextuelles de l'image. Nous montrons, à travers des expériences quantitatives et qualitatives exhaustives sur des jeux de données à grande échelle, que notre modèle atteint des performances supérieures par rapport aux lignes directrices de légendisation avec et sans saillance, ainsi qu'à différentes approches avancées combinant saillance et légendisation.