Un Jeu de Données de Haute Qualité et une Évaluation Fiable pour la Génération Interlancée d'Images et de Texte

Les récentes avancées dans les grands modèles multimodaux (LMMs) ont considérablement amélioré la compréhension et la génération multimodales. Cependant, ces modèles continuent de rencontrer des difficultés pour générer des sorties image-texte étroitement entrelacées, principalement en raison de l'échelle limitée, de la qualité et de la richesse instructive des ensembles de données actuels utilisés pour leur entraînement. Pour remédier à cette situation, nous présentons InterSyn, un grand ensemble de données multimodales construit à l'aide de notre méthode d'Évaluation Auto avec Affinage Itératif (SEIR). InterSyn présente des dialogues à plusieurs tours, guidés par des instructions, avec des réponses image-texte étroitement entrelacées, offrant une grande diversité d'objets et un affinage automatique rigoureux de la qualité, ce qui le rend particulièrement adapté à l'entraînement des LMMs de nouvelle génération capables de suivre des instructions.De plus, afin de répondre au manque d'outils d'évaluation fiables capables d'assurer l'évaluation des sorties multimodales entrelacées, nous introduisons SynJudge, un modèle d'évaluation automatique conçu pour évaluer quantitativement les sorties multimodales selon quatre dimensions : contenu textuel, contenu visuel, qualité visuelle et synergie image-texte.Des études expérimentales montrent que la méthode SEIR conduit à une amélioration substantielle de la qualité des ensembles de données par rapport à un processus identique sans affinage. De plus, les LMMs formés sur InterSyn obtiennent des gains de performance uniformes sur tous les critères d'évaluation, confirmant ainsi l'utilité d'InterSyn pour faire progresser les systèmes multimodaux.