IF-Bench : Évaluation et amélioration des MLLMs pour les images infrarouges à l'aide d'un visualisation générative
IF-Bench : Évaluation et amélioration des MLLMs pour les images infrarouges à l'aide d'un visualisation générative
Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

Résumé
Les progrès récents des modèles de langage à grande échelle multimodaux (MLLM) ont permis des avancées remarquables sur diverses évaluations. Toutefois, leur capacité à comprendre les images infrarouges reste largement inexplorée. Pour combler ce manque, nous introduisons IF-Bench, le premier benchmark de haute qualité conçu pour évaluer la compréhension multimodale des images infrarouges. IF-Bench comprend 499 images issues de 23 jeux de données infrarouges et 680 paires question-réponse visuelles soigneusement sélectionnées, couvrant 10 dimensions essentielles de la compréhension d’image. À partir de ce benchmark, nous évaluons de manière systématique plus de 40 MLLM open-source et propriétaires, en appliquant des stratégies d’évaluation cyclique, d’évaluation bilingue et de jugement hybride afin d’améliorer la fiabilité des résultats. Notre analyse révèle l’impact de l’échelle des modèles, de leur architecture et de leurs paradigmes d’inférence sur la compréhension des images infrarouges, offrant ainsi des perspectives précieuses pour ce domaine. En outre, nous proposons une méthode d’inférence générative sans entraînement, appelée GenViP (Generative Visual Prompting), qui exploite des modèles avancés de modification d’image pour convertir les images infrarouges en équivalents RGB sémantiquement et spatialement alignés, atténuant ainsi les décalages de distribution de domaine. Des expériences étendues démontrent que notre méthode améliore de manière constante et significative les performances sur une large gamme de MLLM.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.