초록

우리는 다양한 상황에서 언어 모델이 사실적으로 정확한 텍스트를 생성하는 능력을 종합적으로 평가할 수 있도록 지원하는 온라인 리더보드 세트 및 관련 벤치마크인 FACTS 리더보드(The FACTS Leaderboard)를 소개합니다. 이 세트는 네 가지 별도의 하위 리더보드에서 모델의 성능을 종합적으로 통합함으로써 사실성에 대한 종합적인 측정을 제공합니다. (1) FACTS 멀티모달(FACTS Multimodal): 이미지 기반 질문에 대한 응답의 사실성을 측정합니다.(2) FACTS 파라메트릭(FACTS Parametric): 모델 내부 파라미터를 통해 닫힌 책(閉鎖된 책) 상황에서의 세계 지식을 평가합니다.(3) FACTS 검색(FACTS Search): 모델이 검색 API를 활용하여 정보를 탐색하는 시나리오에서의 사실성을 평가합니다.(4) FACTS 기반화(v2)(FACTS Grounding, v2): 제공된 문서에 기반하여 장문 응답이 얼마나 정확히 근거를 둔지 평가하며, 향상된 평가 모델(judge model)을 도입하여 정교한 평가를 가능하게 합니다. 각 하위 리더보드는 자동화된 평가 모델(자동 판정 모델)을 사용하여 모델 응답을 점수화하며, 최종 리더보드 점수는 네 가지 구성 요소의 평균값으로 산출되어 모델의 전반적인 사실성에 대해 강력하고 균형 잡힌 평가를 제공하도록 설계되었습니다. FACTS 리더보드 세트는 지속적으로 유지 관리되며, 공개 및 비공개 데이터 분할을 포함하여 외부 참여를 가능하게 하면서도 평가의 신뢰성과 무결성을 보장합니다. 해당 리더보드는 다음 주소에서 확인할 수 있습니다: https://www.kaggle.com/benchmarks/google/facts

소스 PDF