대규모 모델 시간 추론 기능을 위한 시간 벤치마크 데이터 세트 테스트
ToT(Test of Time)는 구글 딥마인드 연구진이 2024년에 출시한 벤치마크 테스트로, 대규모 언어 모델의 시간 추론 능력을 평가하기 위해 특별히 개발되었습니다. 이는 두 가지 독립적인 차원에서 LLM의 시간적 이해와 산술 능력을 조사합니다. 관련 논문 결과는 다음과 같습니다.시간의 테스트: 시간 추론에 대한 LLM 평가를 위한 벤치마크"
ToT 데이터 세트는 세 개의 하위 세트로 나뉩니다. ToT-semantic에는 1,850개의 예가 있고, ToT-arithmetic에는 2,800개의 예가 있으며, ToT-semantic-large에는 46,480개의 예가 있습니다. 이를 통해 더 큰 규모로 시간적 이해의 의미론과 논리를 측정할 수 있습니다.
데이터 형식
ToT-semantic 및 ToT-semantic-large 데이터 세트에는 다음 필드가 포함되어 있습니다.
- 질문: 질문의 텍스트를 포함합니다.
- graph_gen_algorithm: 그래프 생성 알고리즘의 이름입니다.
- question_type: 데이터 세트의 7가지 질문 유형 중 하나에 해당합니다.
- 정렬 유형: 사실에 적용된 정렬 유형에 해당합니다.
- 프롬프트: LLM 작업을 평가하는 데 사용되는 전체 프롬프트 텍스트가 포함되어 있습니다.
- 라벨: 질문에 대한 표준 답변.
ToT-산술 데이터 세트에는 질문, 질문 유형, 레이블이라는 세 개의 필드가 포함되어 있습니다.
데이터 소스
ToT는 NetworkX와 같은 공공 라이브러리를 사용하여 합성적으로 생성됩니다.
- 목적: ToT는 주로 테스트 세트로 사용되도록 설계되었습니다.
- 금지하다:ToT를 훈련 세트로 사용하는 것은 엄격히 금지되어 있습니다.
ToT.torrent
시딩 2다운로드 중 0완료됨 96총 다운로드 횟수 115