HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'évaluation d'instructions Inverses IFEval-Inverse

Date

il y a 2 mois

Organisation

Université de Nanjing
Université de Pékin
Graine ByteDance

URL de l'article

2509.04292

Rejoignez la communauté Discord

*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

IFEval-Inverse est un ensemble de données d'évaluation d'instructions contradictoires pour les grands modèles linguistiques, publié en 2025 par ByteDance Seed en collaboration avec l'Université de Nanjing, l'Université Tsinghua et d'autres institutions. Les résultats de l'étude sont les suivants :Inverse IFEval : les LLM peuvent-ils désapprendre les conventions de formation tenaces pour suivre de vraies instructions ?", qui vise à tester si le modèle peut briser l'inertie de l'entraînement et parvenir à un véritable suivi des instructions lorsqu'il est confronté à des instructions inversées ou anormales.

Cet ensemble de données contient 1 012 exemples de questions bilingues chinois et anglais de haute qualité, couvrant huit types de défis pédagogiques inhabituels, notamment la correction de questions, les erreurs de texte intentionnelles, le code non commenté, le formatage inhabituel, les réponses intentionnellement incorrectes, les questions suggestives, les révisions d'instructions en cours de cours et les réponses à des questions contrefactuelles, dans 23 domaines différents. Chaque échantillon est soumis à une combinaison de sélection et de validation homme-machine, et utilise le mécanisme de notation automatisé LLM-as-a-Judge. Cela le rend idéal pour évaluer et améliorer l'adaptabilité et la robustesse des modèles dans des scénarios d'enseignement non traditionnels, et constitue également une référence importante pour la recherche sur l'atténuation de l'inertie cognitive des modèles.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données d'évaluation d'instructions Inverses IFEval-Inverse | Ensembles de données | HyperAI