Command Palette
Search for a command to run...
프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크
프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크
초록
우리는 원작 소설의 정통 서사와 캐릭터의 전편 스토리 간의 일관성을 판단하는 과제를 통해 장문맥 이해 능력을 평가할 수 있는 벤치마크인 PRELUDE를 소개한다. 기존 벤치마크에 비해 본 과제는 보다 강력한 전반적 이해 능력과 심층적 추론 능력을 요구한다. 왜냐하면 전편 스토리는 원작 이야기의 일부가 아니기 때문에, 그 타당성을 평가하기 위해서는 간접적으로 관련된 정보를 탐색하고 통합하는 과정이 필수적이기 때문이다. 실증적 분석 결과, 전체 예시의 88%가 서사의 여러 부분에서 증거를 필요로 함을 보여준다. 실험 결과는 본 과제의 난이도를 입증한다. 최첨단 대규모 언어 모델(Large Language Models, LLMs)을 활용한 인-컨텍스트 학습, RAG(Retrieval-Augmented Generation), 도메인 내 훈련, 그리고 상용 DeepResearch 서비스 모두 인간 수준에 비해 15% 이상 뒤처지고 있음을 보였다. 추가로 수행한 인간 연구 결과, 모델들은 종종 잘못된 추론 과정을 거쳐 올바른 답을 도출하는 경향이 있으며, 이로 인해 추론 정확도에서 인간과 30% 이상의 격차가 발생함을 확인하였다. 이러한 결과는 장문맥 이해 및 추론 능력 향상을 위한 여전히 큰 개선 여지가 있음을 강조한다.