HyperAIHyperAI
il y a 2 jours

Thym : Pensez au-delà des images

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
Thym : Pensez au-delà des images
Résumé

À la suite de l’introduction par OpenAI du concept « penser avec des images », des travaux récents ont exploré la stimulation de l’utilisation des informations visuelles dans le processus de raisonnement afin d’améliorer les performances des modèles sur des tâches de perception et de raisonnement. Toutefois, à ce jour, aucune solution open source ne propose un ensemble de fonctionnalités aussi riche que les modèles propriétaires (comme O3), capables d’effectuer diverses manipulations d’images tout en renforçant simultanément leurs capacités de raisonnement logique grâce au code. Dans cet article, nous proposons une première tentative dans cette direction en introduisant Thyme (Think Beyond Images), un nouveau paradigme permettant aux modèles multimodaux langage-image (MLLMs) de dépasser les approches actuelles « penser avec des images » en générant et exécutant de manière autonome, via du code exécutable, une diversité d’opérations de traitement d’images et de calculs. Cette approche permet non seulement une richesse de manipulations d’images en temps réel (par exemple, découpage, rotation, amélioration du contraste), mais aussi des calculs mathématiques, tout en maintenant un haut degré d’autonomie dans la décision du moment et du mode d’application de ces opérations. Nous activons cette capacité grâce à une stratégie d’entraînement en deux étapes : une première phase de fine-tuning supervisé (SFT) sur un jeu de données soigneusement sélectionné de 500 000 échantillons pour apprendre la génération de code, suivie d’une phase de renforcement (RL) visant à affiner la prise de décision. Pour cette dernière, nous avons collecté manuellement et conçu des paires question-réponse à haute résolution afin d’augmenter la difficulté d’apprentissage. Nous proposons également un nouvel algorithme, GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), qui applique des températures différentes à la génération de texte et de code, afin d’équilibrer l’exploration du raisonnement et la précision de l’exécution du code. Nous menons une analyse expérimentale approfondie ainsi qu’une étude d’ablation. Les évaluations complètes sur près de 20 benchmarks montrent que Thyme permet d’obtenir des gains significatifs et cohérents en performance, notamment dans les tâches exigeantes de perception à haute résolution et de raisonnement complexe.

Thym : Pensez au-delà des images | Articles de recherche récents | HyperAI