SciArena: منصة تقييم مفتوحة للنماذج الأساسية في مهام الأدبيات العلمية

نقدم SciArena، وهي منصة مفتوحة وتعاونية لتقديم تقييمات للنماذج الأساسية في مهام الأدبيات العلمية. على عكس المقاييس التقليدية لفهم وإعداد الأدبيات العلمية، فإن SciArena تستقطب المجتمع البحثي مباشرة، اتباعًا لنهج التقييم المستخدم في ساحة الدردشة (Chatbot Arena) والذي يعتمد على تصويت المجتمع على مقارنات النماذج. من خلال الاستفادة من الذكاء الجماعي، توفر SciArena تقييمًا مجتمعيًا لأداء النماذج في المهام العلمية المفتوحة التي تتطلب إجابات طويلة ومبنية على الأدبيات. تدعم المنصة حاليًا 23 نموذجًا أساسيًا مفتوح المصدر ومملوكًّا، وقد جمعت أكثر من 13,000 صوت من باحثين موثوق بهم في مجالات علمية متنوعة. نحلل البيانات التي تم جمعها حتى الآن ونؤكد أن الأسئلة المقدمة متنوعة وتتناسب مع احتياجات الأدبيات الحقيقية في العالم، وأن الباحثين المشاركين يظهرون قدرًا قويًا من التجانس الذاتي والاتفاق بين المصححين في تقييماتهم. نناقش النتائج والأفكار بناءً على قائمة تصنيف النماذج. لتعزيز البحث في بناء أنظمة تقييم آلية مستندة إلى النماذج للأدبيات العلمية، نطلق SciArena-Eval، وهو مقاييس متقدم للتقييم يستند إلى بيانات التفضيل التي جمعناها. يقاس دقة النماذج في تحكيم جودة الإجابات من خلال مقارنة تقييماتها الثنائية بالتصويت البشري. تسلط تجاربنا الضوء على التحديات التي يواجهها المقاييس وتؤكد الحاجة إلى طرق تقييم آلية أكثر ثقة.