HyperAIHyperAI

Command Palette

Search for a command to run...

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

날짜

8시간 전

라이선스

CC BY-SA 4.0

LongBlocks는 리스본 대학교, Instituto de Telecomunicações, TransPerfect 및 기타 기관에서 2026년에 공개한 장문맥 다국어 합성 데이터 세트입니다. 이 데이터 세트는 책, 웹 페이지 텍스트, 위키피디아, arXiv 논문, 프로그래밍 코드 및 커뮤니티 Q&A와 같은 장문 문서 코퍼스를 포함하는 약 194,000개의 장문 문맥 질문 및 답변 예제를 포함합니다.

데이터 필드:

  • id: 문자열, 고유 인스턴스 식별자(제한된 도서 데이터를 복구하는 데만 사용되며, 다른 소스의 경우 null).
  • document: 문자열, 긴 원본 문서 내용(도서 데이터가 제한적인 경우 null).
  • source: 문자열, 소스 코퍼스의 이름입니다.
  • language: 예제의 언어 또는 프로그래밍 언어를 나타내는 문자열입니다.
  • 질문: 문자열 합성, 긴 컨텍스트 문제.
  • 답변: 문자열, 진위 여부를 확인하기 위해 필터링된 참조 답변입니다.
  • response_Qwen3-Next-80B-A3B / response_Qwen3.5-27B / response_Nemotron-3-Nano-30B-A3B: 교사 모델에서 생성된 응답에 해당하는 문자열입니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp