이 데이터셋 사용 Discord에서 논의하기

날짜

3달 전

Paper URL

라이선스

MIT

태그

DRACO 크로스 도메인 심층 연구 벤치마크 데이터셋은 Perplexity 팀에서 복잡한 연구 작업을 평가하기 위해 공개한 데이터셋입니다. 관련 논문은 다음과 같습니다... DRACO: 심층 연구의 정확성, 완전성 및 객관성을 위한 도메인 간 벤치마크본 연구의 목적은 심층 연구 시스템의 종합적인 역량을 정확성, 완전성 및 객관성 측면에서 체계적으로 평가하는 것이다. 이 데이터 세트는 5개 대륙 40개 국가 및 지역을 아우르는 100개의 복잡한 연구 과제를 포함하며, 금융, 쇼핑/제품 비교, 학술, 기술 등 10가지 주요 응용 분야를 포괄합니다. 각 과제는 여러 단계와 다양한 출처를 활용하는 정보 검색 및 분석 문제에 해당하며, 26명의 해당 분야 전문가가 설계하고 검증한 평가 기준이 함께 제공됩니다. 각 기준은 평균 약 40개의 평가 지표를 포함하며, 사실 정확성, 분석의 폭과 깊이, 표현 품질, 인용 품질이라는 네 가지 차원에서 모델 출력에 대한 세밀한 평가를 제공합니다. 분야별 업무 배분은 다음 그림과 같습니다.

작업 영역 분포

데이터 필드:

id: 작업에 대한 고유 식별자
도메인: 작업이 속한 도메인
문제: 답변이 필요한 완전한 연구 질문
답변: 평가 기준은 JSON 형식으로 인코딩되어 있으며, 각 평가 영역에 대한 구체적인 표준을 포함합니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

이 데이터셋 사용 Discord에서 논의하기

날짜

3달 전

Paper URL

라이선스

MIT

태그

DRACO 크로스 도메인 심층 연구 벤치마크 데이터셋은 Perplexity 팀에서 복잡한 연구 작업을 평가하기 위해 공개한 데이터셋입니다. 관련 논문은 다음과 같습니다... DRACO: 심층 연구의 정확성, 완전성 및 객관성을 위한 도메인 간 벤치마크본 연구의 목적은 심층 연구 시스템의 종합적인 역량을 정확성, 완전성 및 객관성 측면에서 체계적으로 평가하는 것이다. 이 데이터 세트는 5개 대륙 40개 국가 및 지역을 아우르는 100개의 복잡한 연구 과제를 포함하며, 금융, 쇼핑/제품 비교, 학술, 기술 등 10가지 주요 응용 분야를 포괄합니다. 각 과제는 여러 단계와 다양한 출처를 활용하는 정보 검색 및 분석 문제에 해당하며, 26명의 해당 분야 전문가가 설계하고 검증한 평가 기준이 함께 제공됩니다. 각 기준은 평균 약 40개의 평가 지표를 포함하며, 사실 정확성, 분석의 폭과 깊이, 표현 품질, 인용 품질이라는 네 가지 차원에서 모델 출력에 대한 세밀한 평가를 제공합니다. 분야별 업무 배분은 다음 그림과 같습니다.

작업 영역 분포

데이터 필드:

id: 작업에 대한 고유 식별자
도메인: 작업이 속한 도메인
문제: 답변이 필요한 완전한 연구 질문
답변: 평가 기준은 JSON 형식으로 인코딩되어 있으며, 각 평가 영역에 대한 구체적인 표준을 포함합니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

DRACO 학제간 심층 연구 벤치마크 데이터셋 | 데이터 세트 | HyperAI초신경