Command Palette
Search for a command to run...
IFEval – Inverse-Datensatz Zur Auswertung Umgekehrter Anweisungen
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
IFEval-Inverse ist ein Datensatz zur Bewertung von kontroversen Anweisungen für große Sprachmodelle, der 2025 von ByteDance Seed in Zusammenarbeit mit der Universität Nanjing, der Universität Tsinghua und anderen Institutionen veröffentlicht wurde. Die zugehörigen Ergebnisse sind:Inverse IFEval: Können LLMs hartnäckige Trainingskonventionen verlernen, um echten Anweisungen zu folgen?“, mit dem Ziel zu testen, ob das Modell die Trainingsträgheit durchbrechen und eine echte Anweisungsbefolgung erreichen kann, wenn es mit umgekehrten oder abnormalen Anweisungen konfrontiert wird.
Dieser Datensatz enthält 1.012 hochwertige zweisprachige Fragebeispiele in Chinesisch und Englisch und deckt acht Arten ungewöhnlicher Unterrichtsherausforderungen in 23 verschiedenen Bereichen ab, darunter Fragekorrekturen, absichtliche Textfehler, unkommentierter Code, ungewöhnliche Formatierung, absichtlich falsche Antworten, Suggestivfragen, Unterrichtsrevisionen während des Kurses und kontrafaktische Fragenbeantwortung. Jedes Beispiel wird einer Kombination aus Mensch-Maschine-Screening und Validierung unterzogen und nutzt den automatisierten Bewertungsmechanismus „LLM-as-a-Judge“. Dadurch eignet es sich zur Bewertung und Verbesserung der Anpassungsfähigkeit und Robustheit von Modellen in nicht-traditionellen Unterrichtsszenarien und bietet zudem einen wichtigen Maßstab für die Forschung zur Minderung der kognitiven Trägheit von Modellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.