IA trop confiante, biaisée et peu fiable : une étude révèle les limites des outils de recherche intelligents
Une nouvelle étude met en évidence les limites graves des outils d’intelligence artificielle dans la recherche d’information, révélant qu’ils sont souvent peu fiables, excessivement confiants et biaisés. Conduite par Pranav Narayanan Venkit du Salesforce AI Research et ses collègues, l’étude montre que près d’un tiers des affirmations produites par des outils comme Perplexity, You.com ou Bing Chat de Microsoft ne sont pas soutenues par les sources qu’ils citent. Pour GPT-4.5 d’OpenAI, ce taux atteint même 47 %. Pour évaluer ces systèmes, les chercheurs ont développé un cadre d’audit appelé DeepTRACE, qui analyse plus de 300 questions selon huit critères clés : exactitude des citations, absence de biais, niveau de confiance, équilibre dans les débats, précision des réponses, etc. Les questions étaient divisées en deux catégories : des sujets controversés, comme « Pourquoi l’énergie alternative ne peut-elle pas remplacer les énergies fossiles ? », destinés à tester la capacité de l’IA à proposer des points de vue équilibrés, et des questions d’expertise, telles que « Quels sont les modèles les plus pertinents en hydrologie computationnelle ? », pour évaluer la connaissance technique. Les résultats montrent que, dans les débats, les IA tendent à présenter des arguments unilatéraux tout en affichant une confiance excessive, ce qui peut renforcer les biais existants et créer un effet de chambre d’écho. De plus, une grande partie des informations fournies étaient soit inventées, soit mal soutenues par les sources citées. Dans certains cas, les citations étaient correctes seulement entre 40 % et 80 % du temps. Des examinateurs humains ont validé les résultats pour garantir l’exactitude des évaluations. L’étude, publiée sur arXiv, souligne que les systèmes d’IA basés sur la recherche ont encore besoin d’un progrès considérable pour garantir leur sécurité, leur fiabilité et leur neutralité. Elle met en garde contre les risques d’auto-érosion de l’autonomie des utilisateurs, qui pourraient se fier aveuglément à des réponses trompeuses ou biaisées. Le cadre DeepTRACE, bien que développé pour l’audit, pourrait servir de modèle pour évaluer et améliorer l’intégrité des systèmes d’IA dans le futur. Les auteurs concluent que, bien que ces outils soient pratiques pour gagner du temps, ils ne doivent pas être utilisés comme sources de vérité absolue. Leur utilisation doit être accompagnée d’une vigilance critique, surtout dans des contextes exigeant précision et objectivité. En termes d’impact, cette recherche s’inscrit dans un débat croissant sur la transparence et la responsabilité des IA. Des experts du secteur soulignent que des cadres comme DeepTRACE sont essentiels pour encadrer l’évolution des systèmes d’IA, notamment dans des domaines sensibles comme la santé, l’éducation ou la justice. Salesforce, OpenAI et les autres acteurs du secteur sont appelés à investir davantage dans la vérification des sources, la réduction du biais et l’amélioration de la clarté des réponses. La confiance dans l’IA dépend désormais autant de la rigueur technique que de la transparence des processus.
