استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 6 أشهر

المؤسسة

رابط الورقة البحثية

7a783933efcc

الترخيص

Apache 2.0

الوسوم

الاستدلال

المعايير

FrontierScience هي مجموعة بيانات لتقييم مهام الاستدلال والبحث العلمي، وقد أصدرتها OpenAI في عام 2025. وتشمل الأوراق البحثية ذات الصلة ما يلي... فرونتير ساينس: تقييم قدرة الذكاء الاصطناعي على أداء مهام علمية بمستوى الخبراءالهدف هو التقييم المنهجي لقدرات النماذج الكبيرة في التفكير العلمي على مستوى الخبراء والمهام الفرعية البحثية. تستخدم مجموعة البيانات هذه آلية تصميم "إنشاء الخبراء + هيكل مهمة من طبقتين + آلية تسجيل تلقائية"، وتنقسم إلى مجموعتين فرعيتين، تتوافقان مع نوعين من القدرات: التفكير الدقيق المغلق والتفكير البحثي العلمي المفتوح.

صُممت مجموعة بيانات الأولمبياد في الأصل من قِبل الفائزين بالميداليات ومدربي المنتخبات الوطنية في الأولمبياد الدولية للفيزياء والكيمياء والأحياء. وتُضاهي صعوبة الأسئلة صعوبة المسابقات الدولية الكبرى مثل أولمبياد الفيزياء الدولي (IPhO) وأولمبياد الكيمياء الدولي (IChO) وأولمبياد الأحياء الدولي (IBO). وتركز على مهام الاستدلال ذات الإجابات القصيرة، وتتطلب من النموذج إخراج قيمة عددية واحدة، أو تعبير جبري، أو مصطلح بيولوجي يمكن مطابقته بشكل تقريبي، وذلك لضمان إمكانية التحقق من النتائج واستقرار التقييم الآلي.
مجموعة بيانات البحث من إعداد طلاب الدكتوراه، وزملاء ما بعد الدكتوراه، والأساتذة، وغيرهم من الباحثين النشطين. تحاكي الأسئلة مشاكل فرعية قد تُصادف في البحث العلمي الحقيقي، وتغطي المجالات الرئيسية الثلاثة: الفيزياء، والكيمياء، وعلم الأحياء. يُرفق كل سؤال بدرجة تفصيلية من 10 نقاط لتقييم أداء النموذج في عدة جوانب رئيسية، تشمل افتراضات النمذجة، ومسارات الاستدلال، والاستنتاجات الوسيطة، بالإضافة إلى صحة الإجابة.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 6 أشهر

المؤسسة

رابط الورقة البحثية

7a783933efcc

الترخيص

Apache 2.0

الوسوم

الاستدلال

المعايير

صُممت مجموعة بيانات الأولمبياد في الأصل من قِبل الفائزين بالميداليات ومدربي المنتخبات الوطنية في الأولمبياد الدولية للفيزياء والكيمياء والأحياء. وتُضاهي صعوبة الأسئلة صعوبة المسابقات الدولية الكبرى مثل أولمبياد الفيزياء الدولي (IPhO) وأولمبياد الكيمياء الدولي (IChO) وأولمبياد الأحياء الدولي (IBO). وتركز على مهام الاستدلال ذات الإجابات القصيرة، وتتطلب من النموذج إخراج قيمة عددية واحدة، أو تعبير جبري، أو مصطلح بيولوجي يمكن مطابقته بشكل تقريبي، وذلك لضمان إمكانية التحقق من النتائج واستقرار التقييم الآلي.
مجموعة بيانات البحث من إعداد طلاب الدكتوراه، وزملاء ما بعد الدكتوراه، والأساتذة، وغيرهم من الباحثين النشطين. تحاكي الأسئلة مشاكل فرعية قد تُصادف في البحث العلمي الحقيقي، وتغطي المجالات الرئيسية الثلاثة: الفيزياء، والكيمياء، وعلم الأحياء. يُرفق كل سؤال بدرجة تفصيلية من 10 نقاط لتقييم أداء النموذج في عدة جوانب رئيسية، تشمل افتراضات النمذجة، ومسارات الاستدلال، والاستنتاجات الوسيطة، بالإضافة إلى صحة الإجابة.

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

منذ 2 أشهر

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

منذ 5 أشهر

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

منذ 5 أشهر

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

منذ 5 أشهر

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 6 أشهر

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

منذ 6 أشهر

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

منذ 6 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات تقييم مهام البحث الاستدلالي من FrontierScience

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات تقييم مهام البحث الاستدلالي من FrontierScience

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات تقييم مهام البحث الاستدلالي من FrontierScience

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro