Inverse IFEval: Können LLMs beständige Trainingskonventionen vergessen, um echte Anweisungen zu befolgen?

Große Sprachmodelle (LLMs) erreichen eine starke Leistung bei einer Vielzahl von Aufgaben, zeigen jedoch oft kognitive Trägheit und haben Schwierigkeiten, Anweisungen zu befolgen, die mit den während der überwachten Feinabstimmung (SFT) erlernten standardisierten Mustern kollidieren. Um diese Einschränkung zu bewerten, schlagen wir Inverse IFEval vor – einen Benchmark, der die Fähigkeit von Modellen zur Überwindung von durch das Training induzierten Bias und zur Befolgung adversarialer Anweisungen misst, also deren „gegenintuitives Verhalten“. Inverse IFEval führt acht Arten solcher Herausforderungen ein, darunter Fragekorrektur, gezielt eingebauter Textfehler, Code ohne Kommentare sowie kontrafaktische Antworten. Mit einem menschlich gesteuerten Pipeline-Ansatz erstellen wir eine Datensammlung mit insgesamt 1012 hochwertigen Fragen in Chinesisch und Englisch, abgedeckt über 23 Domänen, die unter einem optimierten LLM-as-a-Judge-Framework evaluiert werden. Experimente an bestehenden führenden LLMs belegen die Notwendigkeit unseres vorgeschlagenen Inverse IFEval-Benchmarks. Unsere Ergebnisse unterstreichen, dass zukünftige Ausrichtungsstrategien nicht nur Flüssigkeit und faktische Richtigkeit anstreben sollten, sondern auch die Anpassungsfähigkeit in unkonventionellen Kontexten berücksichtigen müssen. Wir hoffen, dass Inverse IFEval sowohl als diagnostisches Werkzeug dient als auch die Grundlage für Methoden bildet, die kognitive Trägheit verringern, Überanpassung an enge Muster verhindern und letztlich die Zuverlässigkeit der Anweisungsbeachtung von LLMs in vielfältigen und unvorhersehbaren realen Szenarien verbessern.