ميجا ساينس: دفع حدود مجموعات البيانات بعد التدريب للتفكير العلمي

الاستدلال العلمي ضروري لتطوير علماء الذكاء الاصطناعي ودعم الباحثين البشريين في تقدم حدود اكتشاف العلوم الطبيعية. ومع ذلك، ركزت المجتمعات المفتوحة المصدر بشكل أساسي على الرياضيات والبرمجة، وتجاهلت المجال العلمي، وذلك بشكل رئيسي بسبب عدم توفر مجموعات بيانات مفتوحة المصدر كبيرة وعالية الجودة وقابلة للتحقق من الاستدلال العلمي. لسد هذه الفجوة، نقدم أولًا مجموعة بيانات "TextbookReasoning"، وهي مجموعة بيانات مفتوحة تحتوي على إجابات صحيحة مستخرجة من 12,000 كتاب مدرسي علمي على مستوى الجامعات، وتشمل 650,000 سؤال استدلال تغطي 7 تخصصات علمية. كما نقدم "MegaScience"، وهي مجموعة بيانات كبيرة تتألف من مزيج من مجموعات بيانات مفتوحة المصدر عالية الجودة، وتمتد إلى 1.25 مليون مثال، وقد تم تطويرها من خلال دراسات تحليلية منهجية تقيّم مختلف منهجيات اختيار البيانات لتحديد المجموعة المثلى لكل مجموعة بيانات علمية متوفرة علنًا. في الوقت نفسه، قمنا ببناء نظام تقييم شامل يغطي مساقات متنوعة ونوعيات مختلفة من الأسئلة عبر 15 معايير تقييم، مع دمج استراتيجيات استخراج الإجابات الشاملة لضمان دقة مؤشرات التقييم. تُظهر تجاربنا أن مجموعات البيانات الخاصة بنا تحقق أداءً أفضل وكفاءة تدريب أعلى مع طول إجابات أقصر مقارنة بمجموعة البيانات العلمية المفتوحة المصدر الحالية. علاوة على ذلك، قمنا بتدريب نماذج Llama3.1 و Qwen2.5 و시리ّة Qwen3 على MegaScience، والتي تحقق أداءً أفضل بشكل كبير من النماذج الرسمية الموجهة المقابلة في المتوسط. بالإضافة إلى ذلك، تُظهر MegaScience فعالية أكبر بالنسبة للنماذج الأكبر والأقوى، مما يشير إلى فائدة التوسع في التخصيص العلمي. ونقوم بتسليط_pipeline الخاصة بنا لإعداد البيانات، ونظام التقييم، ومجموعات البيانات، وسبع نماذج تم تدريبها للمجتمع، بهدف تعزيز الأبحاث المتعلقة بالاستدلال العلمي.