17일 전
RE-IMAGINE: 추론 평가를 위한 기호 벤치마크 합성
Xu, Xinnuo ; Lawrence, Rachel ; Dubey, Kshitij ; Pandey, Atharva ; Ueno, Risa ; Falck, Fabian ; Nori, Aditya V. ; Sharma, Rahul ; Sharma, Amit ; Gonzalez, Javier

초록
최근 대형 언어 모델(LLMs)은 추론 벤치마크에서 높은 정확도를 보고하고 있습니다. 그러나 관찰된 결과가 진정한 추론에서 비롯된 것인지, 아니면 훈련 세트의 통계적 재현에서 비롯된 것인지는 아직 명확하지 않습니다. 이 논문은 Pearl(2009)이 제시한 인과 사다리와 그 세 단계(연관성, 개입, 반사실적 추론)에 영감을 받아, LLMs의 추론 능력을 특징화하는 프레임워크인 RE-IMAGINE을 소개합니다. RE-IMAGINE은 중간 기호 표현을 변경하여 메모리화만으로는 해결할 수 없는 임의로 많은 문제들을 생성하는 자동 파이프라인을 포함하고 있습니다. 또한, 이 프레임워크는 일반적이며 수학, 코드, 논리 등 다양한 추론 영역에서 작동할 수 있습니다. 우리는 널리 사용되는 네 가지 벤치마크를 통해 여러 가족의 LLMs를 평가하며, 문제 변형에 대한 모델들의 성능 저하를 관찰하였습니다. 이러한 평가는 과거 성능에 대한 통계적 재현에 어느 정도 의존하고 있음을 나타내며, 추론 계층 구조 전반에 걸친 기술 연구를 위한 문을 열어줍니다.