Discord에서 논의하기

9달 전

검색 증강 생성

Mo Yu Tsz Ting Chung Chulun Zhou Tong Li Rui Lu Jiangnan Li Liyan Xu Haoshu Lu Ning Zhang Jing Li

초록

우리는 원작 소설의 정통 서사와 캐릭터의 전편 스토리 간의 일관성을 판단하는 과제를 통해 장문맥 이해 능력을 평가할 수 있는 벤치마크인 PRELUDE를 소개한다. 기존 벤치마크에 비해 본 과제는 보다 강력한 전반적 이해 능력과 심층적 추론 능력을 요구한다. 왜냐하면 전편 스토리는 원작 이야기의 일부가 아니기 때문에, 그 타당성을 평가하기 위해서는 간접적으로 관련된 정보를 탐색하고 통합하는 과정이 필수적이기 때문이다. 실증적 분석 결과, 전체 예시의 88%가 서사의 여러 부분에서 증거를 필요로 함을 보여준다. 실험 결과는 본 과제의 난이도를 입증한다. 최첨단 대규모 언어 모델(Large Language Models, LLMs)을 활용한 인-컨텍스트 학습, RAG(Retrieval-Augmented Generation), 도메인 내 훈련, 그리고 상용 DeepResearch 서비스 모두 인간 수준에 비해 15% 이상 뒤처지고 있음을 보였다. 추가로 수행한 인간 연구 결과, 모델들은 종종 잘못된 추론 과정을 거쳐 올바른 답을 도출하는 경향이 있으며, 이로 인해 추론 정확도에서 인간과 30% 이상의 격차가 발생함을 확인하였다. 이러한 결과는 장문맥 이해 및 추론 능력 향상을 위한 여전히 큰 개선 여지가 있음을 강조한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

9달 전

검색 증강 생성

Mo Yu Tsz Ting Chung Chulun Zhou Tong Li Rui Lu Jiangnan Li Liyan Xu Haoshu Lu Ning Zhang Jing Li

초록

우리는 원작 소설의 정통 서사와 캐릭터의 전편 스토리 간의 일관성을 판단하는 과제를 통해 장문맥 이해 능력을 평가할 수 있는 벤치마크인 PRELUDE를 소개한다. 기존 벤치마크에 비해 본 과제는 보다 강력한 전반적 이해 능력과 심층적 추론 능력을 요구한다. 왜냐하면 전편 스토리는 원작 이야기의 일부가 아니기 때문에, 그 타당성을 평가하기 위해서는 간접적으로 관련된 정보를 탐색하고 통합하는 과정이 필수적이기 때문이다. 실증적 분석 결과, 전체 예시의 88%가 서사의 여러 부분에서 증거를 필요로 함을 보여준다. 실험 결과는 본 과제의 난이도를 입증한다. 최첨단 대규모 언어 모델(Large Language Models, LLMs)을 활용한 인-컨텍스트 학습, RAG(Retrieval-Augmented Generation), 도메인 내 훈련, 그리고 상용 DeepResearch 서비스 모두 인간 수준에 비해 15% 이상 뒤처지고 있음을 보였다. 추가로 수행한 인간 연구 결과, 모델들은 종종 잘못된 추론 과정을 거쳐 올바른 답을 도출하는 경향이 있으며, 이로 인해 추론 정확도에서 인간과 30% 이상의 격차가 발생함을 확인하였다. 이러한 결과는 장문맥 이해 및 추론 능력 향상을 위한 여전히 큰 개선 여지가 있음을 강조한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크 | 문서 | HyperAI초신경