
초록
본 논문에서는 경제, 비즈니스 및 공급망 관리의 복잡한 영역에서 대형 언어 모델(LLM)의 순차적 추론 능력을 평가하기 위해 설계된 엄격한 벤치마크인 EconLogicQA를 소개합니다. 기존의 벤치마크들이 개별적으로 후속 사건을 예측하는 것과 달리, EconLogicQA는 더 어려운 과제를 제시합니다. 이 벤치마크는 모델이 여러 개의 상호 연관된 사건을 식별하고 순서대로 배열하도록 요구하며, 경제적 논리를 포착하는 복잡성을 반영합니다. EconLogicQA는 경제 기사에서 파생된 다중 사건 시나리오로 구성되어 있으며, 시간적 및 논리적 사건 관계에 대한 깊은 이해가 필요합니다. 포괄적인 평가를 통해 우리는 EconLogicQA가 경제적 맥락에서 내재된 순차적 복잡성을 탐색하는 LLM의 능력을 효과적으로 측정함을 보여줍니다. 또한, EconLogicQA 데이터셋에 대한 자세한 설명과 최첨단 LLM들에 대한 벤치마크 평가 결과를 제공하여, 이들의 경제적 맥락에서의 순차적 추론 잠재력에 대해 철저한 시각을 제공합니다. 우리의 벤치마크 데이터셋은 https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa 에서 이용할 수 있습니다.