HyperAI

Une nouvelle étude dirigée par des chercheurs de l'Université de Stanford a révélé un problème critique dans l'évaluation des modèles d'intelligence artificielle multimodaux. Ces systèmes, censés combiner vision et langage, sont capables de générer des descriptions détaillées d'images qui n'existent pas ou ne leur sont pas fournies. Ce phénomène, qualifié d'effet de mirage, met en lumière une faiblesse majeure dans les benchmarks actuels qui pourraient faussement attribuer une haute compétence visuelle à des modèles basés uniquement sur le langage. Pour quantifier ce comportement, l'équipe a développé un test appelé Phantom-0. Ce protocole a posé des questions très spécifiques sur des catégories diverses à plusieurs modèles de pointe, dont GPT-5, Gemini 3 Pro, Claude Sonnet 4.5 et Claude Opus 4.5, sans fournir aucune image d'accompagnement. Résultat inquiétant : au lieu d'admettre leur incapacité à voir, les modèles ont généré avec une confiance déconcertante des détails factices, tels que des numéros de plaque d'immatriculation précis, des langues de journaux spécifiques ou même des diagnostics médicaux graves pour des pathologies inexistantes. En moyenne, ce comportement de fabrication d'informations a été observé plus de 60 % du temps. L'étude, publiée sous forme de prépublication sur le serveur arXiv, remet en question l'hypothèse fondamentale selon laquelle des scores élevés aux tests actuels reflètent une véritable compréhension visuelle. Les chercheurs ont démontré que même un modèle conçu uniquement pour le texte, n'ayant jamais accès à des données visuelles, a surpassé des systèmes multimodaux de haut niveau et des médecins humains sur des benchmarks standards de radiologie, notamment pour l'analyse de radios thoraciques. Les modèles semblent exploiter des motifs textuels cachés et des probabilités de langage plutôt qu'une analyse réelle de l'image. Lorsque l'expérimentateur indique explicitement que l'image est manquante, la précision chute drastiquement, prouvant que la performance apparente repose sur l'illusion de la présence de l'image. Cette faille pose un risque considérable, en particulier dans des secteurs comme la santé où des réponses inventées pourraient avoir des conséquences dramatiques. La confiance croissante des patients et des cliniciens dans l'IA pour le diagnostic et l'analyse médicale rend d'autant plus urgente la révision des méthodes d'évaluation. Les chercheurs ont souligné la nécessité de benchmarks plus sûrs qui éliminent toute inférence non visuelle. Pour contrer ce problème, l'équipe a proposé une nouvelle méthode d'évaluation nommée B-Clean. Cette approche filtre les questions qui peuvent être résolues uniquement grâce au contexte textuel, forçant ainsi les modèles à s'appuyer exclusivement sur leur capacité réelle à interpréter l'image fournie. Le B-Clean vise à fournir une mesure plus juste et plus précise des capacités visuelles, en évitant les résultats biaisés par la chance ou l'apprentissage par cœur des indices textuels. Bien que prometteuse, cette méthode nécessite encore des recherches supplémentaires pour confirmer qu'elle élimine définitivement l'effet de mirage et garantit que les sorties générées par l'IA sont bien ancrées dans les données visuelles réelles.

Liens associés

Liens associés

Liens associés

Command Palette

Les modèles IA simulent la compréhension d'images inexistantes

Liens associés

Command Palette

Les modèles IA simulent la compréhension d'images inexistantes

Liens associés

Command Palette

Les modèles IA simulent la compréhension d'images inexistantes

Liens associés