하루 전
SciArena: 과학 문헌 작업을 위한 기초 모델 평가 플랫폼
Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan

초록
우리는 과학 문헌 작업을 평가하기 위한 오픈 및 협업 플랫폼인 SciArena를 소개합니다. 기존의 과학 문헌 이해 및 종합 벤치마크와 달리, SciArena는 챗봇 아레나(C chatbot arena)의 커뮤니티 투표 방식을 따르며 연구 커뮤니티를 직접 참여시키는 방식으로 운영됩니다. 집단 지성을 활용함으로써 SciArena는 문헌에 근거한, 장문의 답변이 요구되는 개방형 과학 작업에서 모델 성능을 커뮤니티 주도로 평가할 수 있는 기회를 제공합니다. 현재 이 플랫폼은 23개의 오픈 소스 및 상용 기초 모델을 지원하며, 다양한 과학 분야에서 신뢰할 수 있는 연구자들로부터 13,000건 이상의 투표를 수집하였습니다. 우리는 지금까지 수집된 데이터를 분석하여 제출된 질문들이 다양하고 실제 세계의 문헌 요구와 일치하며, 참여한 연구자들이 평가에서 강한 자기 일관성과 주석자 간 합의를 보임을 확인하였습니다. 우리는 모델 순위 표에 근거한 결과와 통찰력을 논의합니다. 또한 문헌 작업에 대한 모델 기반 자동 평가 시스템 연구를 더욱 촉진하기 위해, 수집된 선호도 데이터를 바탕으로 한 메타 평가 벤치마크인 SciArena-Eval을 공개합니다. 이 벤치마크는 모델들의 쌍별 평가 결과를 인간 투표와 비교하여 답변 품질 판단의 정확도를 측정합니다. 우리의 실험은 벤치마크의 어려움을 부각시키고 더 신뢰할 수 있는 자동 평가 방법의 필요성을 강조합니다.