Utiliser ce jeu de données Discuter sur Discord

Date

il y a 5 mois

Organisation

URL du document

2509.04292

Balises

Génération De Texte

IFEval-Inverse est un ensemble de données d'évaluation d'instructions contradictoires pour les grands modèles linguistiques, publié en 2025 par ByteDance Seed en collaboration avec l'Université de Nanjing, l'Université Tsinghua et d'autres institutions. Les résultats de l'étude sont les suivants :Inverse IFEval : les LLM peuvent-ils désapprendre les conventions de formation tenaces pour suivre de vraies instructions ?", qui vise à tester si le modèle peut briser l'inertie de l'entraînement et parvenir à un véritable suivi des instructions lorsqu'il est confronté à des instructions inversées ou anormales.

Cet ensemble de données contient 1 012 exemples de questions bilingues chinois et anglais de haute qualité, couvrant huit types de défis pédagogiques inhabituels, notamment la correction de questions, les erreurs de texte intentionnelles, le code non commenté, le formatage inhabituel, les réponses intentionnellement incorrectes, les questions suggestives, les révisions d'instructions en cours de cours et les réponses à des questions contrefactuelles, dans 23 domaines différents. Chaque échantillon est soumis à une combinaison de sélection et de validation homme-machine, et utilise le mécanisme de notation automatisé LLM-as-a-Judge. Cela le rend idéal pour évaluer et améliorer l'adaptabilité et la robustesse des modèles dans des scénarios d'enseignement non traditionnels, et constitue également une référence importante pour la recherche sur l'atténuation de l'inertie cognitive des modèles.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Associé Jeux de données

Ensemble De Données De Restauration d'images De Phénomènes Météorologiques Extrêmes De WeatherBench

il y a un mois

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

il y a un mois

Ensemble De Données d'évaluation De La Génération d'écriture Arena-Write

il y a 2 mois

Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 5 mois

Organisation

URL du document

2509.04292

Balises

Génération De Texte

Associé Jeux de données

Ensemble De Données De Génération Vidéo De Robot RoVid-X

il y a 5 jours

Ensemble De Données De Tests Physiologiques PhysDriver

il y a 2 mois

Ensemble De Données PolypSense3D Prenant En Compte La Taille Des Polypes

il y a 2 mois

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

il y a 2 mois

Ensemble De Données Vidéo d'occlusion Humaine 3D VOccl3D

il y a 2 mois

Ensemble De Données De Restauration d'images De Phénomènes Météorologiques Extrêmes De WeatherBench

il y a un mois

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

il y a un mois

Ensemble De Données d'évaluation De La Génération d'écriture Arena-Write

il y a 2 mois

Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données d'évaluation d'instructions Inverses IFEval-Inverse

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'évaluation d'instructions Inverses IFEval-Inverse

Associé Jeux de données

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Tests Physiologiques PhysDriver

Ensemble De Données PolypSense3D Prenant En Compte La Taille Des Polypes

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données Vidéo d'occlusion Humaine 3D VOccl3D

Ensemble De Données De Restauration d'images De Phénomènes Météorologiques Extrêmes De WeatherBench

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Génération d'écriture Arena-Write

Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'évaluation d'instructions Inverses IFEval-Inverse

Associé Jeux de données

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Tests Physiologiques PhysDriver

Ensemble De Données PolypSense3D Prenant En Compte La Taille Des Polypes

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données Vidéo d'occlusion Humaine 3D VOccl3D

Ensemble De Données De Restauration d'images De Phénomènes Météorologiques Extrêmes De WeatherBench

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Génération d'écriture Arena-Write

Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Jeux de données

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Tests Physiologiques PhysDriver

Ensemble De Données PolypSense3D Prenant En Compte La Taille Des Polypes

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données Vidéo d'occlusion Humaine 3D VOccl3D

Ensemble De Données De Restauration d'images De Phénomènes Météorologiques Extrêmes De WeatherBench

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Génération d'écriture Arena-Write

Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles

Associé Jeux de données

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Tests Physiologiques PhysDriver

Ensemble De Données PolypSense3D Prenant En Compte La Taille Des Polypes

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données Vidéo d'occlusion Humaine 3D VOccl3D

Ensemble De Données De Restauration d'images De Phénomènes Météorologiques Extrêmes De WeatherBench

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Génération d'écriture Arena-Write

Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles