날짜

7달 전

조직

Paper URL

태그

SimpleQA는 OpenAI에서 2024년에 공개한 대규모 언어 모델의 사실적 정확도 평가 데이터셋입니다. 관련 논문으로는 다음과 같은 것들이 있습니다... 대규모 언어 모델에서 짧은 형식의 사실성 측정목표는 복잡한 추론이나 주관적인 판단이 평가 결과에 영향을 미치지 않도록 하면서, 간결하고 명확하며 검증 가능한 사실적 질문에 대한 모델의 정확성을 평가하는 것입니다. 데이터셋이 업데이트되어 이제 과학 기술, 예술, 엔터테인먼트 등 다양한 주제를 다루는 4,326개의 샘플 문제가 포함되어 있습니다. 이 중 4,321개는 공식 테스트 세트이고, 5개는 소량 평가에 사용됩니다. 각 문제는 고유하고 논쟁의 여지가 없는 표준 답안에 대응하며, 정확성과 검증 가능성을 보장하기 위해 신뢰할 수 있는 자료를 기반으로 두 명의 독립적인 전문가가 검증했습니다. 데이터셋의 각 샘플에는 문제의 주제, 답안 유형(예: 인물, 숫자 또는 장소), 그리고 정확한 평가 및 결과 분석을 용이하게 하는 관련 링크가 레이블로 지정되어 있습니다. 기존의 사실 기반 벤치마크 데이터셋과 비교했을 때, SimpleQA는 훨씬 더 까다로운 데이터셋이며, 현재 최첨단 모델조차도 이 데이터셋에서 정확도에 분명한 한계를 보입니다. 따라서 SimpleQA는 모델의 사실적 신뢰성을 평가하는 고강도 테스트 도구로 활용될 수 있습니다.

소환

이 저장소가 연구에 유용하다고 생각되시면 인용해 주시면 감사하겠습니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

Discord에서 논의하기

날짜

7달 전

조직

Paper URL

2411.04368

태그

자연어 처리

지능형 질문 응답

소환

이 저장소가 연구에 유용하다고 생각되시면 인용해 주시면 감사하겠습니다.

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

15일 전

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

14일 전

SMOL 다국어 번역 병렬 데이터 세트

한 달 전

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

한 달 전

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

한 달 전

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

2달 전

QCalEval 양자 교정 그래프 이해 데이터 세트

2달 전

ParseBench 문서 구문 분석 기능 평가 데이터 세트

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

SimpleQA 간결한 사실 기반 질문 답변 평가 데이터 세트

소환

AI로 AI 구축

HyperAI Newsletters

Command Palette

SimpleQA 간결한 사실 기반 질문 답변 평가 데이터 세트

소환

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

SimpleQA 간결한 사실 기반 질문 답변 평가 데이터 세트

소환

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

undefined

MAKIEVAL 다국어 문화 지식 평가 데이터 세트

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

SMOL 다국어 번역 병렬 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

QCalEval 양자 교정 그래프 이해 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트