Inverse IFEval : Les LLM peuvent-ils désapprendre des conventions d'entraînement tenaces afin de suivre des instructions réelles ?

Les modèles de langage à grande échelle (LLM) obtiennent de fortes performances sur une variété de tâches, mais présentent souvent une inertie cognitive, ce qui les pousse à peiner à suivre des instructions contraires aux schémas standardisés appris durant le fine-tuning supervisé (SFT). Pour évaluer cette limitation, nous proposons Inverse IFEval, un benchmark mesurant la capacité des modèles à surmonter les biais induits par l'apprentissage et à s'adapter à des instructions adverses — c’est-à-dire leur « aptitude contre-intuitive ». Inverse IFEval introduit huit catégories de défis, parmi lesquels : la correction de questions, la présence intentionnelle d’erreurs textuelles, le code sans commentaires, et les réponses à des scénarios contre-factuels. Grâce à un pipeline impliquant un humain dans la boucle (human-in-the-loop), nous avons construit un jeu de données comprenant 1 012 questions de haute qualité, disponibles en chinois et en anglais, couvrant 23 domaines, évaluées dans le cadre d’un cadre optimisé de jugement par modèle de langage (LLM-as-a-Judge). Les expérimentations menées sur des LLM leaders actuels mettent en évidence la nécessité du benchmark Inverse IFEval que nous proposons. Nos résultats soulignent que les efforts futurs d’alignement ne devraient pas se limiter à la fluidité et à la correction factuelle, mais doivent également tenir compte de l’adaptabilité des modèles dans des contextes non conventionnels. Nous espérons qu’Inverse IFEval servira à la fois d’outil diagnostique et de fondation pour le développement de méthodes visant à atténuer l’inertie cognitive, à réduire le surapprentissage (overfitting) sur des schémas étroits, et à améliorer finalement la fiabilité du suivi d'instructions des LLM dans des scénarios réels divers et imprévisibles.