HyperAIHyperAI

Command Palette

Search for a command to run...

프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크

초록

우리는 원작 소설의 정통 서사와 캐릭터의 전편 스토리 간의 일관성을 판단하는 과제를 통해 장문맥 이해 능력을 평가할 수 있는 벤치마크인 PRELUDE를 소개한다. 기존 벤치마크에 비해 본 과제는 보다 강력한 전반적 이해 능력과 심층적 추론 능력을 요구한다. 왜냐하면 전편 스토리는 원작 이야기의 일부가 아니기 때문에, 그 타당성을 평가하기 위해서는 간접적으로 관련된 정보를 탐색하고 통합하는 과정이 필수적이기 때문이다. 실증적 분석 결과, 전체 예시의 88%가 서사의 여러 부분에서 증거를 필요로 함을 보여준다. 실험 결과는 본 과제의 난이도를 입증한다. 최첨단 대규모 언어 모델(Large Language Models, LLMs)을 활용한 인-컨텍스트 학습, RAG(Retrieval-Augmented Generation), 도메인 내 훈련, 그리고 상용 DeepResearch 서비스 모두 인간 수준에 비해 15% 이상 뒤처지고 있음을 보였다. 추가로 수행한 인간 연구 결과, 모델들은 종종 잘못된 추론 과정을 거쳐 올바른 답을 도출하는 경향이 있으며, 이로 인해 추론 정확도에서 인간과 30% 이상의 격차가 발생함을 확인하였다. 이러한 결과는 장문맥 이해 및 추론 능력 향상을 위한 여전히 큰 개선 여지가 있음을 강조한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크 | 문서 | HyperAI초신경