IFEval – Inverse-Datensatz Zur Auswertung Umgekehrter Anweisungen
Datum
Veröffentlichungs-URL
Paper-URL
IFEval-Inverse ist ein Datensatz zur Bewertung von kontroversen Anweisungen für große Sprachmodelle, der 2025 von ByteDance Seed in Zusammenarbeit mit der Universität Nanjing, der Universität Tsinghua und anderen Institutionen veröffentlicht wurde. Die zugehörigen Ergebnisse sind:Inverse IFEval: Können LLMs hartnäckige Trainingskonventionen verlernen, um echten Anweisungen zu folgen?“, mit dem Ziel zu testen, ob das Modell die Trainingsträgheit durchbrechen und eine echte Anweisungsbefolgung erreichen kann, wenn es mit umgekehrten oder abnormalen Anweisungen konfrontiert wird.
Dieser Datensatz enthält 1.012 hochwertige zweisprachige Fragebeispiele in Chinesisch und Englisch und deckt acht Arten ungewöhnlicher Unterrichtsherausforderungen in 23 verschiedenen Bereichen ab, darunter Fragekorrekturen, absichtliche Textfehler, unkommentierter Code, ungewöhnliche Formatierung, absichtlich falsche Antworten, Suggestivfragen, Unterrichtsrevisionen während des Kurses und kontrafaktische Fragenbeantwortung. Jedes Beispiel wird einer Kombination aus Mensch-Maschine-Screening und Validierung unterzogen und nutzt den automatisierten Bewertungsmechanismus „LLM-as-a-Judge“. Dadurch eignet es sich zur Bewertung und Verbesserung der Anpassungsfähigkeit und Robustheit von Modellen in nicht-traditionellen Unterrichtsszenarien und bietet zudem einen wichtigen Maßstab für die Forschung zur Minderung der kognitiven Trägheit von Modellen.