HyperAI
Command Palette
Search for a command to run...
LongBlocks는 리스본 대학교, Instituto de Telecomunicações, TransPerfect 및 기타 기관에서 2026년에 공개한 장문맥 다국어 합성 데이터 세트입니다. 이 데이터 세트는 책, 웹 페이지 텍스트, 위키피디아, arXiv 논문, 프로그래밍 코드 및 커뮤니티 Q&A와 같은 장문 문서 코퍼스를 포함하는 약 194,000개의 장문 문맥 질문 및 답변 예제를 포함합니다.
데이터 필드:
- id: 문자열, 고유 인스턴스 식별자(제한된 도서 데이터를 복구하는 데만 사용되며, 다른 소스의 경우 null).
- document: 문자열, 긴 원본 문서 내용(도서 데이터가 제한적인 경우 null).
- source: 문자열, 소스 코퍼스의 이름입니다.
- language: 예제의 언어 또는 프로그래밍 언어를 나타내는 문자열입니다.
- 질문: 문자열 합성, 긴 컨텍스트 문제.
- 답변: 문자열, 진위 여부를 확인하기 위해 필터링된 참조 답변입니다.
- response_Qwen3-Next-80B-A3B / response_Qwen3.5-27B / response_Nemotron-3-Nano-30B-A3B: 교사 모델에서 생성된 응답에 해당하는 문자열입니다.
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.