FRAMES-벤치마크 검색 향상 생성 테스트 세트
* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
FRAMES-benchmark는 구글이 2024년에 공개한 포괄적인 평가 데이터 세트로, 사실성, 검색 정확도, 추론 측면에서 검색 증강 생성(RAG) 시스템의 역량을 테스트하는 것을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.사실, 가져오기 및 추론: 검색 증강 생성에 대한 통합 평가". 이 데이터셋은 2개에서 15개의 위키백과 문서에서 정보를 얻어야 하는 824개의 까다로운 멀티홉(multi-hop) 질문을 포함합니다. 질문은 역사, 스포츠, 과학, 동물, 건강 등의 주제를 다루며, 각 질문은 수치적 추론, 표 형식 추론, 다중 제약 조건 추론, 시간적 추론, 후처리 추론 등 추론 유형별로 분류되어 있습니다. 또한, 이 데이터셋은 각 질문에 대한 정답과 관련 위키백과 문서도 제공합니다.
FRAMES 데이터 세트의 주요 특징은 종단 간 RAG 기능 테스트, 여러 소스의 정보 통합 요구, 복잡한 추론 및 시간적 모호성 해소 포함, 최첨단 언어 모델에 적합하도록 설계되었다는 점입니다. 이 데이터 세트는 RAG 시스템의 성능을 평가하고, 언어 모델의 사실성 및 추론 능력을 벤치마킹하고, 멀티홉 검색 전략을 개발하고 테스트하는 데 사용할 수 있습니다.