الملخص

نقدم SciArena، وهي منصة مفتوحة وتعاونية لتقديم تقييمات للنماذج الأساسية في مهام الأدبيات العلمية. على عكس المقاييس التقليدية لفهم وإعداد الأدبيات العلمية، فإن SciArena تستقطب المجتمع البحثي مباشرة، اتباعًا لنهج التقييم المستخدم في ساحة الدردشة (Chatbot Arena) والذي يعتمد على تصويت المجتمع على مقارنات النماذج. من خلال الاستفادة من الذكاء الجماعي، توفر SciArena تقييمًا مجتمعيًا لأداء النماذج في المهام العلمية المفتوحة التي تتطلب إجابات طويلة ومبنية على الأدبيات. تدعم المنصة حاليًا 23 نموذجًا أساسيًا مفتوح المصدر ومملوكًّا، وقد جمعت أكثر من 13,000 صوت من باحثين موثوق بهم في مجالات علمية متنوعة. نحلل البيانات التي تم جمعها حتى الآن ونؤكد أن الأسئلة المقدمة متنوعة وتتناسب مع احتياجات الأدبيات الحقيقية في العالم، وأن الباحثين المشاركين يظهرون قدرًا قويًا من التجانس الذاتي والاتفاق بين المصححين في تقييماتهم. نناقش النتائج والأفكار بناءً على قائمة تصنيف النماذج. لتعزيز البحث في بناء أنظمة تقييم آلية مستندة إلى النماذج للأدبيات العلمية، نطلق SciArena-Eval، وهو مقاييس متقدم للتقييم يستند إلى بيانات التفضيل التي جمعناها. يقاس دقة النماذج في تحكيم جودة الإجابات من خلال مقارنة تقييماتها الثنائية بالتصويت البشري. تسلط تجاربنا الضوء على التحديات التي يواجهها المقاييس وتؤكد الحاجة إلى طرق تقييم آلية أكثر ثقة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SciArena: منصة تقييم مفتوحة للنماذج الأساسية في مهام الأدبيات العلمية

Yilun Zhao Kaiyan Zhang Tiansheng Hu Sihong Wu Ronan Le Bras Taira Anderson Jonathan Bragg Joseph Chee Chang Jesse Dodge Matt Latzke8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SciArena: منصة تقييم مفتوحة للنماذج الأساسية في مهام الأدبيات العلمية

Yilun Zhao Kaiyan Zhang Tiansheng Hu Sihong Wu Ronan Le Bras Taira Anderson Jonathan Bragg Joseph Chee Chang Jesse Dodge Matt Latzke8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SciArena: منصة تقييم مفتوحة للنماذج الأساسية في مهام الأدبيات العلمية

Yilun Zhao Kaiyan Zhang Tiansheng Hu Sihong Wu Ronan Le Bras Taira Anderson Jonathan Bragg Joseph Chee Chang Jesse Dodge Matt Latzke8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yilun Zhao Kaiyan Zhang Tiansheng Hu Sihong Wu Ronan Le Bras Taira Anderson Jonathan Bragg Joseph Chee Chang Jesse Dodge Matt Latzke

Yilun Zhao Kaiyan Zhang Tiansheng Hu Sihong Wu Ronan Le Bras Taira Anderson Jonathan Bragg Joseph Chee Chang Jesse Dodge Matt Latzke

Yilun Zhao Kaiyan Zhang Tiansheng Hu Sihong Wu Ronan Le Bras Taira Anderson Jonathan Bragg Joseph Chee Chang Jesse Dodge Matt Latzke