HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs

Yusuf Çelebi Mahmoud El Hussieni Özay Ezerceli

Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs

Résumé

Voici la traduction du texte en français, rédigée dans un style formel adapté aux publications scientifiques et technologiques :Cette étude présente PARROT (Persuasion and Agreement Robustness Rating of Output Truth), un cadre axé sur la robustesse conçu pour mesurer la dégradation de la précision qui survient sous la pression sociale exercée par l'autorité et la persuasion dans les grands modèles de langage (LLM), un phénomène connu sous le nom de complaisance (sycophancy ou conformisme excessif).Le cadre PARROT (i) isole les effets causaux en comparant, via une évaluation en double aveugle, la version neutre d'une même question avec une version fausse formulée avec autorité ; (ii) quantifie les variations de confiance envers les réponses correctes et les réponses fausses imposées à l'aide d'un suivi de l'étalonnage basé sur la vraisemblance logarithmique (log-likelihood) ; et (iii) classe systématiquement les modes de défaillance (par ex. : correct robuste, accord complaisant, erreur renforcée, erreur obstinée, auto-correction, etc.) au moyen d'une taxonomie comportementale à huit états.Nous avons évalué 22 modèles à l'aide de 1 302 questions à choix multiples de type MMLU couvrant 13 domaines, en appliquant des gabarits d'autorité spécifiques à chaque domaine. Les résultats révèlent une hétérogénéité marquée : les modèles avancés (tels que GPT-5, GPT-4.1, Claude Sonnet 4.5) affichent de faibles « taux de suivi » (≤ 11 %, GPT-5 : 4 %) et une perte de précision minime, tandis que les modèles plus anciens ou de taille plus modeste subissent un effondrement épistémique sévère (GPT-4 : 80 %, Qwen 2.5-1.5B : 94 %).Le danger ne se limite pas à la modification des réponses ; les modèles faibles réduisent leur niveau de confiance dans la réponse correcte tout en augmentant leur confiance dans la réponse incorrecte imposée. Si le droit international et les connaissances générales mondiales présentent une grande fragilité au niveau sectoriel, les mathématiques élémentaires s'avèrent relativement résilientes. Par conséquent, nous soutenons que la « résistance à la pression de surajustement » doit être traitée comme un objectif primordial, au même titre que la précision, l'évitement des préjudices (harm avoidance) et la confidentialité, afin d'assurer un déploiement sûr dans le monde réel.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs | Articles de recherche | HyperAI