IA encore imparfaite pour noter les dissertations universitaires
Une étude récente menée par l'Université de Cambridge révèle que l'intelligence artificielle actuelle n'est pas suffisamment fiable pour noter des dissertations universitaires. Une équipe de psychologues et d'experts en IA a évalué plus de 750 devoirs de premier cycle en psychologie soumis par trois universités britanniques entre 2022 et 2025. Les résultats montrent que les systèmes d'IA les plus avancés, dont les versions récentes de Claude et ChatGPT, ne correspondent au classement humain qu'à environ 50 % des cas. L'analyse a mis en lumière des biais systémiques majeurs. Contrairement aux examinateurs humains qui jugent le fond et la qualité académique, les algorithmes surévaluent systématiquement les critères de style linguistique tels que la longueur, la complexité des phrases et la richesse du vocabulaire, indépendamment de la substance du contenu. Cette tendance conduit à une sous-estimation des meilleurs travaux et à une surévaluation des devoirs les plus faibles. Les modèles d'IA affichent une prédominance pour les notes moyennes, ce qui les rend particulièrement imprécis aux seuils critiques qui distinguent les mentions d'excellence des échecs, là où les décisions académiques sont les plus déterminantes. La précision de l'IA varie selon les établissements. Elle atteint environ 63 % pour les étudiants de Cambridge, 53 % pour ceux de Nottingham et seulement 35 % pour l'Université Manchester Metropolitan. Les chercheurs attribuent ces écarts à la nature des travaux évalués et à la diversité des notes. Les devoirs de Cambridge, rédigés en salle d'examen surveillée, présentaient une fourchette de notes plus étroite, facilitant la tâche de l'IA, tandis que les travaux d'évaluation continue de Manchester offraient une variance plus grande qui confond les algorithmes. Bien que l'IA ne puisse pas remplacer la note finale, l'étude suggère qu'elle pourrait jouer un rôle d'assistance. Elle est utile pour la détection d'erreurs, les vérifications de cohérence et le tri initial des feedbacks à donner aux étudiants. Un écart significatif entre la note donnée par l'IA et celle d'un humain pourrait servir de signal pour indiquer qu'un examen humain complémentaire est nécessaire. De plus, les retours générés par l'IA, lorsqu'ils sont allongés, se distinguent difficilement de ceux rédigés par des humains, ce qui pose des problèmes éthiques si les étudiants apprennent que leurs commentaires proviennent d'un algorithme. Les chercheurs insistent sur l'importance de la relation humaine dans l'éducation. Dr. Deborah Talmi, cheffe du projet OpRaise, alerte sur le risque d'une homogénéisation de la notation qui sous-estime les talents exceptionnels et favorise la forme au détriment du fond. Dr. Yael Benn ajoute que confier la notation à l'IA affaiblirait la confiance, la motivation et le jugement professionnel au cœur de l'enseignement supérieur. Les étudiants et le personnel ont exprimé leur sentiment qu'être noté par une machine serait perçu comme une trahison de la relation académique établie. En conclusion, l'IA peut automatiser certaines tâches chronophages, mais la décision finale et l'évaluation de la qualité académique doivent rester entre les mains d'humains pour préserver les valeurs et la signification de l'éducation universitaire.
