Préformation de la vision et du langage structuré pour la recherche intermodale des aliments

Le pré-entraînement Vision-Langue (VLP) et les modèles fondamentaux ont été la recette de prédilection pour atteindre des performances d'état de l'art (SoTA) sur des benchmarks généraux. Cependant, l'utilisation de ces techniques puissantes pour des tâches visio-linguistiques plus complexes, telles que les applications culinaires, avec des données d'entrée plus structurées, reste peu explorée. Dans cette étude, nous proposons d'utiliser ces techniques pour des tâches informatiques culinaires basées sur du texte structuré. Notre stratégie, baptisée VLPCook, transforme d'abord les paires image-texte existantes en paires image et texte structuré. Cela permet de pré-entraîner notre modèle VLPCook en utilisant des objectifs VLP adaptés aux données structurées des jeux de données résultants, puis de le fine-tuner sur des tâches informatiques culinaires en aval. Pendant le fine-tuning, nous enrichissons également l'encodeur visuel en utilisant des modèles fondamentaux pré-entraînés (par exemple, CLIP) pour fournir un contexte textuel local et global. VLPCook surpasses significativement les méthodes actuelles d'état de l'art avec une amélioration absolue de +3,3 points en Recall@1 sur la tâche de recherche alimentaire intermodale sur le grand jeu de données Recipe1M. Nous menons des expériences supplémentaires sur le VLP pour valider leur importance, notamment sur le jeu de données Recipe1M+. Enfin, nous validons la généralisation de notre approche à d'autres tâches (comme la reconnaissance alimentaire) et domaines comportant du texte structuré, comme le domaine médical sur le jeu de données ROCO. Le code est disponible ici : https://github.com/mshukor/VLPCook