PhotoChat : Un jeu de données de dialogues humain-humain avec un comportement de partage d’images pour un apprentissage conjoint image-texte

Nous présentons un nouveau jeu de données de dialogues humain-humain — PhotoChat — le premier à explorer le comportement de partage d’images dans les messageries en ligne. PhotoChat comprend 12 000 dialogues, chacun étant associé à une photo partagée par l’utilisateur au cours de la conversation. À partir de ce jeu de données, nous proposons deux tâches afin de stimuler la recherche sur la modélisation image-texte : une tâche de prédiction de l’intention de partage d’image, qui vise à prévoir si un utilisateur souhaite partager une photo au tour suivant de la conversation, et une tâche de récupération d’image, qui consiste à retrouver la photo la plus pertinente en fonction du contexte du dialogue. En outre, pour chacune de ces deux tâches, nous fournissons des modèles de référence basés sur des modèles d’état de l’art, ainsi que leurs performances de référence. Le meilleur modèle de récupération d’image atteint un rappel à 1 de 10,4 % (parmi 1 000 candidats), tandis que le meilleur modèle de prédiction d’intention de partage atteint un score F1 de 58,1 %, ce qui indique que ce jeu de données pose des problèmes réels à la fois intéressants et exigeants. Nous mettons PhotoChat à disposition de la communauté afin de favoriser les travaux de recherche futurs.