HyperAI超神经

ToT(Test of Time)는 구글 딥마인드 연구진이 2024년에 출시한 벤치마크 테스트로, 대규모 언어 모델의 시간 추론 능력을 평가하기 위해 특별히 개발되었습니다. 이는 두 가지 독립적인 차원에서 LLM의 시간적 이해와 산술 능력을 조사합니다. 관련 논문 결과는 다음과 같습니다.시간의 테스트: 시간 추론에 대한 LLM 평가를 위한 벤치마크"

ToT 데이터 세트는 세 개의 하위 세트로 나뉩니다. ToT-semantic에는 1,850개의 예가 있고, ToT-arithmetic에는 2,800개의 예가 있으며, ToT-semantic-large에는 46,480개의 예가 있습니다. 이를 통해 더 큰 규모로 시간적 이해의 의미론과 논리를 측정할 수 있습니다.

데이터 형식

ToT-semantic 및 ToT-semantic-large 데이터 세트에는 다음 필드가 포함되어 있습니다.

질문: 질문의 텍스트를 포함합니다.

graph_gen_algorithm: 그래프 생성 알고리즘의 이름입니다.

question_type: 데이터 세트의 7가지 질문 유형 중 하나에 해당합니다.

정렬 유형: 사실에 적용된 정렬 유형에 해당합니다.

프롬프트: LLM 작업을 평가하는 데 사용되는 전체 프롬프트 텍스트가 포함되어 있습니다.

라벨: 질문에 대한 표준 답변.

ToT-산술 데이터 세트에는 질문, 질문 유형, 레이블이라는 세 개의 필드가 포함되어 있습니다.

데이터 소스

ToT는 NetworkX와 같은 공공 라이브러리를 사용하여 합성적으로 생성됩니다.

목적: ToT는 주로 테스트 세트로 사용되도록 설계되었습니다.
금지하다:ToT를 훈련 세트로 사용하는 것은 엄격히 금지되어 있습니다.

대규모 모델 시간 추론 기능을 위한 시간 벤치마크 데이터 세트 테스트

데이터 형식

데이터 소스