Sourcing participatif ludifié de données de haute qualité pour l'ajustement fin visuel

Cet article présente Gamified Adversarial Prompting (GAP), un cadre permettant de collecter à grande échelle des données de haute qualité pour l’ajustement des modèles multimodaux de grande taille via des instructions visuelles. GAP transforme le processus de collecte de données en un jeu attractif, incitant les participants à fournir des questions et réponses précises et exigeantes, visant spécifiquement les lacunes dans les connaissances du modèle. Nos contributions comprennent : (1) une approche permettant de capturer des paires question-réponse provenant d’humains, directement ciblant les faiblesses du modèle ; (2) une méthode d’évaluation et de rémunération des joueurs, conçue pour inciter efficacement à la soumission de contributions de haute qualité ; et (3) une plateforme évolutive et ludifiée, capable de recueillir ces données auprès de plus de 50 000 participants en quelques semaines seulement. L’implémentation de GAP a considérablement amélioré la précision d’un petit modèle multimodal, à savoir MiniCPM-Llama3-V-2.5-8B, faisant passer son score GPT de 0,147 à 0,477 sur notre jeu de données, s’approchant ainsi de la référence établie par le modèle bien plus grand GPT-4V. En outre, nous démontrons que les données générées à l’aide de MiniCPM-Llama3-V-2.5-8B améliorent également ses performances sur d’autres benchmarks, tout en offrant des bénéfices transmodèles : les mêmes données permettent d’améliorer les performances de QWEN2-VL-2B et de QWEN2-VL-7B sur plusieurs benchmarks communs.