HyperAIHyperAI
vor einem Monat

REST: Stress-Testing großer Inferenzmodelle durch gleichzeitiges Stellen mehrerer Probleme

Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
REST: Stress-Testing großer Inferenzmodelle durch gleichzeitiges Stellen mehrerer Probleme
Abstract

Kürzlich haben große Schließungsmodelle (LRMs) auf taskspezifischen Benchmarks erstaunliche Fortschritte gemacht, ihre Bewertungsmethoden bleiben jedoch an isolierten Problemlösungsparadigmen gebunden. Bestehende Benchmarks bewerten hauptsächlich die Schließungsfähigkeit bei einzelnen Fragen durch sequenzielle Tests, was zu kritischen Einschränkungen führt: (1) Anfälligkeit für Datenkontamination und geringere Herausforderungen (z.B. erreicht DeepSeek-R1 97,0 % auf MATH500), was den aufwendigen und kontinuierlichen Aufwand zur Erstellung neuer Fragen mit großem menschlichen Einsatz erfordert, (2) Versagen bei der Bewertung von Modellen unter Mehrfachkontextdruck, einer wesentlichen Voraussetzung für die Einführung in reale Anwendungsszenarien. Um diese Lücke zu schließen, stellen wir REST (Schließungsbeurteilung durch gleichzeitige Tests) vor, einen Stress-Test-Framework, der LRMs gleichzeitig mehreren Problemen aussetzt. Neben grundlegenden Schließungsfähigkeiten bewertet REST speziell mehrere bisher wenig untersuchte Fähigkeiten: Kontextprioritätsvergabe, Widerstand gegen Querproblemeingriffe und dynamische Kognitionsbelastungssteuerung. Unsere Bewertung ergibt einige bemerkenswerte Ergebnisse: Selbst state-of-the-art-Modelle wie DeepSeek-R1 zeigen erhebliche Leistungsabfälle bei Stress-Tests. Entscheidend zeigt REST eine stärkere diskriminative Kraft als bestehende Benchmarks, wodurch deutliche Leistungsunterschiede zwischen Modellen sichtbar werden, die bei Einzelfragen-Bewertungen ähnliche, nahe an der Decke liegende Leistungen zeigen. Aus unserer Analyse ergeben sich einige wichtige mechanistische Erkenntnisse: (1) Die "Überdenkfallen" ist ein entscheidender Faktor für die Leistungsverschlechterung; (2) Modelle, die mit der "long2short"-Technik trainiert wurden, behalten unter REST mehr von ihrer Einzelproblemlösungsleistung und übertreffen standardmäßig trainierte Modelle. Diese Ergebnisse etablieren REST als kosteneffizientes und zukunftssicheres Evaluationsparadigma, das bessere Realitätsnähe bei Schließungsaufgaben bietet und den Bedarf an kontinuierlicher menschlicher Annotation reduziert.

REST: Stress-Testing großer Inferenzmodelle durch gleichzeitiges Stellen mehrerer Probleme | Neueste Forschungsarbeiten | HyperAI