REST: 여러 문제를 동시에 제시하여 대형 추론 모델의 스트레스 테스트 수행

최근의 대형 추론 모델(LRMs)은 과제별 벤치마크에서 뛰어난 성과를 거두었지만, 그 평가 방법은 여전히 고립된 문제 해결 패러다임에 제약을 받고 있습니다. 기존 벤치마크는 주로 순차적인 테스트를 통해 단일 질문 추론을 평가하므로 다음과 같은 중요한 한계가 존재합니다: (1) 데이터 오염에 취약하고 덜 도전적이어서(예: DeepSeek-R1은 MATH500에서 97.0%의 정확도를 달성), 새로운 질문을 지속적으로 생성하는 데 많은 인적 자원이 필요하며, (2) 실제 환경에서 필수적인 다중 컨텍스트 압력 하에서 모델을 평가하지 못합니다. 이러한 격차를 메우기 위해, 우리는 REST (동시 테스트를 통한 추론 평가)라는 스트레스 테스트 프레임워크를 제안합니다. REST는 기본적인 추론을 넘어서 여러 가지 미처 평가되지 않은 능력을 특별히 검증합니다: 컨텍스트 우선순위 할당, 문제 간 간섭 저항성, 그리고 동적인 인지 부담 관리입니다. 우리의 평가는 다음과 같은 눈에 띄는 결과들을 밝혀냈습니다: 심지어 최신 기술(SOTA) 모델인 DeepSeek-R1조차 스트레스 테스트 하에서 상당한 성능 저하를 보였습니다. 특히, REST는 기존 벤치마크보다 더 강력한 차별화 능력을 보여주며, 단일 질문 평가에서는 유사하게 근접한 성능을 보이는 모델들 사이에서도 명확한 성능 차이를 드러냅니다. 우리의 분석으로부터 몇 가지 핵심적인 메커니즘적 통찰이 나타났습니다: (1) "과도한 사고 함정"은 성능 저하에 중요한 요인이며, (2) "long2short" 기법으로 훈련된 모델들은 REST 하에서 단일 문제 성능의 정확성을 더 잘 유지하며, 표준 훈련 방식으로 훈련된 모델들보다 우수한 성능을 보입니다. 이러한 결과들은 REST가 실제 세계의 추론 요구사항을 더 잘 반영하면서 지속적인 인간 주석에 대한 의존성을 줄이는 비용 효율적이고 미래 지향적인 평가 패러다임임을 입증합니다.