HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'évaluation d'instructions Inverses IFEval-Inverse

Use this Dataset

Date

il y a 3 mois

Organization

Université de Nanjing
Université de Pékin
Graine ByteDance

Paper URL

2509.04292

IFEval-Inverse est un ensemble de données d'évaluation d'instructions contradictoires pour les grands modèles linguistiques, publié en 2025 par ByteDance Seed en collaboration avec l'Université de Nanjing, l'Université Tsinghua et d'autres institutions. Les résultats de l'étude sont les suivants :Inverse IFEval : les LLM peuvent-ils désapprendre les conventions de formation tenaces pour suivre de vraies instructions ?", qui vise à tester si le modèle peut briser l'inertie de l'entraînement et parvenir à un véritable suivi des instructions lorsqu'il est confronté à des instructions inversées ou anormales.

Cet ensemble de données contient 1 012 exemples de questions bilingues chinois et anglais de haute qualité, couvrant huit types de défis pédagogiques inhabituels, notamment la correction de questions, les erreurs de texte intentionnelles, le code non commenté, le formatage inhabituel, les réponses intentionnellement incorrectes, les questions suggestives, les révisions d'instructions en cours de cours et les réponses à des questions contrefactuelles, dans 23 domaines différents. Chaque échantillon est soumis à une combinaison de sélection et de validation homme-machine, et utilise le mécanisme de notation automatisé LLM-as-a-Judge. Cela le rend idéal pour évaluer et améliorer l'adaptabilité et la robustesse des modèles dans des scénarios d'enseignement non traditionnels, et constitue également une référence importante pour la recherche sur l'atténuation de l'inertie cognitive des modèles.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp