1日前
SciArena: 科学文献タスクのためのオープン評価プラットフォーム
Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan

要約
私たちはSciArenaを発表します。これは科学文献タスクにおける基礎モデルの評価を目的としたオープンで協力的なプラットフォームです。従来の科学文献理解や統合のベンチマークとは異なり、SciArenaはチャットボット・アリーナの評価手法に倣って、研究コミュニティが直接モデル比較に投票する形を取ります。集団知能を活用することで、SciArenaは文献に基づいた長期的な応答を必要とする開放的な科学タスクにおけるモデル性能のコミュニティ主導の評価を提供します。現在、このプラットフォームは23のオープンソースおよびプロプライエタリな基礎モデルをサポートしており、多様な科学分野から信頼できる研究者たちによる13,000件以上の投票を集めています。これまで収集されたデータを分析した結果、提出された質問は多様であり、実世界の文献ニーズと一致していることが確認されました。また、参加する研究者が評価において高い自己一貫性と相互間の一致性を示していることも明らかになりました。私たちはこれらの結果と洞察について議論し、モデルランキング・リーダーボードに基づいて考察を行います。さらに、文献タスク向けのモデルベース自動評価システムに関する研究を促進するために、SciArena-Evalというメタ評価ベンチマークを公開します。このベンチマークは、収集した選好データに基づいており、モデルが人間の投票との対比で回答品質を判断する精度を測定します。私たちの実験では、ベンチマークが抱える課題が浮き彫りになり、より信頼性のある自動評価方法が必要であることが強調されました。