HyperAIHyperAI

Command Palette

Search for a command to run...

SciArena: منصة تقييم مفتوحة للنماذج الأساسية في مهام الأدبيات العلمية

الملخص

نقدم SciArena، وهي منصة مفتوحة وتعاونية لتقديم تقييمات للنماذج الأساسية في مهام الأدبيات العلمية. على عكس المقاييس التقليدية لفهم وإعداد الأدبيات العلمية، فإن SciArena تستقطب المجتمع البحثي مباشرة، اتباعًا لنهج التقييم المستخدم في ساحة الدردشة (Chatbot Arena) والذي يعتمد على تصويت المجتمع على مقارنات النماذج. من خلال الاستفادة من الذكاء الجماعي، توفر SciArena تقييمًا مجتمعيًا لأداء النماذج في المهام العلمية المفتوحة التي تتطلب إجابات طويلة ومبنية على الأدبيات. تدعم المنصة حاليًا 23 نموذجًا أساسيًا مفتوح المصدر ومملوكًّا، وقد جمعت أكثر من 13,000 صوت من باحثين موثوق بهم في مجالات علمية متنوعة. نحلل البيانات التي تم جمعها حتى الآن ونؤكد أن الأسئلة المقدمة متنوعة وتتناسب مع احتياجات الأدبيات الحقيقية في العالم، وأن الباحثين المشاركين يظهرون قدرًا قويًا من التجانس الذاتي والاتفاق بين المصححين في تقييماتهم. نناقش النتائج والأفكار بناءً على قائمة تصنيف النماذج. لتعزيز البحث في بناء أنظمة تقييم آلية مستندة إلى النماذج للأدبيات العلمية، نطلق SciArena-Eval، وهو مقاييس متقدم للتقييم يستند إلى بيانات التفضيل التي جمعناها. يقاس دقة النماذج في تحكيم جودة الإجابات من خلال مقارنة تقييماتها الثنائية بالتصويت البشري. تسلط تجاربنا الضوء على التحديات التي يواجهها المقاييس وتؤكد الحاجة إلى طرق تقييم آلية أكثر ثقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp