HyperAIHyperAI

Command Palette

Search for a command to run...

FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크

초록

우리는 다양한 상황에서 언어 모델이 사실적으로 정확한 텍스트를 생성하는 능력을 종합적으로 평가할 수 있도록 지원하는 온라인 리더보드 세트 및 관련 벤치마크인 FACTS 리더보드(The FACTS Leaderboard)를 소개합니다. 이 세트는 네 가지 별도의 하위 리더보드에서 모델의 성능을 종합적으로 통합함으로써 사실성에 대한 종합적인 측정을 제공합니다. (1) FACTS 멀티모달(FACTS Multimodal): 이미지 기반 질문에 대한 응답의 사실성을 측정합니다.(2) FACTS 파라메트릭(FACTS Parametric): 모델 내부 파라미터를 통해 닫힌 책(閉鎖된 책) 상황에서의 세계 지식을 평가합니다.(3) FACTS 검색(FACTS Search): 모델이 검색 API를 활용하여 정보를 탐색하는 시나리오에서의 사실성을 평가합니다.(4) FACTS 기반화(v2)(FACTS Grounding, v2): 제공된 문서에 기반하여 장문 응답이 얼마나 정확히 근거를 둔지 평가하며, 향상된 평가 모델(judge model)을 도입하여 정교한 평가를 가능하게 합니다. 각 하위 리더보드는 자동화된 평가 모델(자동 판정 모델)을 사용하여 모델 응답을 점수화하며, 최종 리더보드 점수는 네 가지 구성 요소의 평균값으로 산출되어 모델의 전반적인 사실성에 대해 강력하고 균형 잡힌 평가를 제공하도록 설계되었습니다. FACTS 리더보드 세트는 지속적으로 유지 관리되며, 공개 및 비공개 데이터 분할을 포함하여 외부 참여를 가능하게 하면서도 평가의 신뢰성과 무결성을 보장합니다. 해당 리더보드는 다음 주소에서 확인할 수 있습니다: https://www.kaggle.com/benchmarks/google/facts


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크 | 문서 | HyperAI초신경