أصبحت مجموعة بيانات MMLU-Pro المعيارية متاحة الآن، وتحتوي على 12 ألف مشكلة معقدة متعددة التخصصات. إنه أكثر تحديًا! نشر نموذج DeepSeek الرياضي بنقرة واحدة

في عصر نماذج اللغة الكبيرة (LLMs)، تلعب معايير مثل فهم اللغة متعدد المهام الضخم (MMLU) دورًا حاسمًا في دفع حدود قدرات الذكاء الاصطناعي على فهم اللغة والاستدلال في مجالات مختلفة.
ومع ذلك، مع التحسين المستمر وتحسين النموذج، استقر أداء LLM في هذه المعايير تدريجيًا، مما يجعل من الصعب بشكل متزايد التمييز بين الاختلافات في قدرات النماذج المختلفة.
لتقييم قدرات برنامج الماجستير في القانون بشكل أفضل، أصدر باحثون من جامعة واترلو وجامعة تورنتو وجامعة كارنيجي ميلون بشكل مشترك مجموعة بيانات MMLU-Pro، والتي تدمج الأسئلة من مصادر متعددة، بما في ذلك مجموعة بيانات MMLU الأصلية ومواقع STEM وTheoremQA وSciBench.أصبحت مجموعة البيانات متاحة الآن للتنزيل على hyper.ai. قم بالتمرير لأسفل للحصول على الرابط~
من 9 سبتمبر إلى 14 سبتمبر، تحديثات الموقع الرسمي لـhyper.ai:
* مجموعات البيانات العامة عالية الجودة: 10
* مجموعة مختارة من الدروس التعليمية عالية الجودة: 3
* اختيار المقالات المجتمعية: 4 مقالات
* إدخالات الموسوعة الشعبية: 5
* أفضل المؤتمرات مع الموعد النهائي في سبتمبر: 3
قم بزيارة الموقع الرسمي:هايبر.اي
مجموعات البيانات العامة المختارة
1. مجموعة بيانات فهم المهام المتعددة واسعة النطاق MMLU-Pro
مجموعة بيانات MMLU-Pro عبارة عن مجموعة بيانات فهم متعددة المهام واسعة النطاق أكثر قوة وتحديًا، مصممة لقياس قدرات نماذج اللغة الكبيرة بشكل أكثر صرامة. تحتوي مجموعة البيانات على 12 ألف سؤال معقد في مختلف التخصصات.
الاستخدام المباشر: https://go.hyper.ai/PwJDW
2. مجموعة بيانات استخراج الطرق DeepGlobe18
تحتوي بيانات التدريب لتحدي الطريق على 6226 صورة قمر صناعي RGB بحجم 1024×1024. وتتمتع الصور بدقة 50 سم بكسل ويتم التقاطها بواسطة أقمار DigitalGlobe.
الاستخدام المباشر: https://go.hyper.ai/VIg0J
3. مجموعة بيانات OpenForensics للكشف عن تزوير الوجوه
تتكون مجموعة البيانات من 115 ألف صورة برية و334 ألف وجه، وكلها تحتوي على تعليقات توضيحية غنية للوجه بما في ذلك فئات التزوير، والمربعات المحددة، وأقنعة التجزئة، وحدود التزوير، والمعالم العامة للوجه، والتي تغطي خلفيات مختلفة وأشخاص متعددين من مختلف الأعمار والجنسين والوضعيات والمواقف وانسدادات الوجه.
الاستخدام المباشر: https://go.hyper.ai/jTTRz
4. مجموعة بيانات الكشف عن التزييف العميق DeepfakeTIMIT
تحتوي مجموعة البيانات على مقاطع فيديو لوجوه تم تبديلها باستخدام نهج مفتوح المصدر يعتمد على الشبكة التنافسية التوليدية (GAN). تم إنشاء هذه الفيديوهات استنادًا إلى خوارزمية Deepfake الأصلية المبنية على برنامج التشفير التلقائي.
الاستخدام المباشر: https://go.hyper.ai/me1TI
5. قاعدة بيانات الوثائق الاصطناعية SESYD
تحتوي مجموعة البيانات على صور مستندية تحتوي على معلومات حقيقية معيارية. يتكون من 11 مجموعة، بما في ذلك 284 ألف صورة، و190 ألف رمز، و284 ألف حرف. يركز على مشكلتين بحثيتين رئيسيتين في مجال تحليل صور المستندات: (1) التعرف على الرموز وتحديد موقعها في صور الرسم عبر الإنترنت (مثل مخططات الطوابق ومخططات الدوائر)؛ (2) تقسيم الشخصيات والتعرف عليها في الخرائط الجغرافية.
الاستخدام المباشر: https://go.hyper.ai/ZqRTQ
6. مجموعة بيانات LAV-DF متعددة الوسائط للصوتيات والمرئيات بتقنية DeepFake
LAV-DF عبارة عن مجموعة بيانات متعددة الوسائط (التلاعب بالفيديو والتلاعب بالصوت) مشتقة من مجموعة بيانات VoxCeleb2، وتحتوي على 136,304 مقطع فيديو، بما في ذلك 36,431 مقطع فيديو حقيقي و99,873 مقطع فيديو مزيف.
الاستخدام المباشر: https://go.hyper.ai/ujock
7. مجموعة بيانات تأجير الملابس النابضة بالحياة
تحتوي مجموعة البيانات على 64 ألف معاملة، وسجلات إيجار لـ 2.2 ألف مستخدم مجهول، و15.8 ألف زي فريد، حيث يتم تسجيل سمات وسجل إيجار كل عنصر بالتفصيل. يتم إدراج جميع عناصر الملابس كمنتجات فردية أو مجموعات المنتجات المقابلة لها، في إشارة إلى التصميمات المشتركة بين العناصر الفردية، ويصاحب كل عنصر من الملابس مجموعة من العلامات التي تصف بعض سماتها.
الاستخدام المباشر:https://go.hyper.ai/PFlKA
8. مجموعة بيانات تزوير الوجوه FFIW10K
تتضمن البيانات 10 آلاف مقطع فيديو مزيف عالي الجودة تم جمعها من موقع يوتيوب، بمتوسط ثلاثة وجوه لكل إطار. يحتوي كل فيديو على وجوه حقيقية ووجوه مزيفة، وهو أقرب إلى المشاهد الواقعية والمعقدة. إن عملية التلاعب تتم بشكل آلي بالكامل ويتم التحكم فيها من خلال شبكة تقييم الجودة التنافسية للمجال، مما يجعل مجموعة البيانات قابلة للتطوير بدرجة كبيرة ومنخفضة تكلفة العمالة.
الاستخدام المباشر: https://go.hyper.ai/AHS7y
9. مجموعة بيانات تزوير الوجوه من ForgeryNet
تحتوي مجموعة البيانات على 2.9 مليون صورة و221,247 مقطع فيديو، تغطي 7 طرق تزوير على مستوى الصورة و8 طرق تزوير على مستوى الفيديو من جميع أنحاء العالم. توفر هذه المجموعة من البيانات للباحثين موارد غنية لدعم أربع مهام على مستوى الصورة والفيديو: تصنيف تزوير الصور، وتحديد موقع التزوير المكاني، وتصنيف تزوير الفيديو، وتحديد موقع التزوير الزمني.
الاستخدام المباشر: https://go.hyper.ai/Yx0mj
10. مجموعة بيانات حالة حواء تخطيط كهربية الدماغ مجموعة بيانات حالة العين تخطيط كهربية الدماغ
تحتوي مجموعة البيانات هذه على حالات لقياسات تخطيط كهربية الدماغ، حيث يكون الناتج هو حالة العينين مفتوحتين أو مغلقتين. يتم ترتيب القيم في مجموعة البيانات حسب الترتيب الزمني، حيث يمثل 0 حالة العيون المفتوحة ويمثل 1 حالة العيون المغلقة. تحتوي مجموعة البيانات على 14 قياسًا لتخطيط كهربية الدماغ، مُسمَّاة AF3، F7، F3، FC5، T7، P، O1، O2، P8، T8، FC6، F4، F8، AF4.
الاستخدام المباشر:https://go.hyper.ai/RTBDy
لمزيد من مجموعات البيانات العامة، يرجى زيارة:
دروس تعليمية عامة مختارة
1. واحدنشر المفاتيح DeepSeek-Prover-V1.5
هذا النموذج هو نموذج لإثبات النظرية الرياضية مفتوح المصدر من قبل DeepSeek في عام 2024. قدم فريق البحث هذا النموذج في Lean 4. يبني النموذج بيئة تعليمية على غرار "Go" من خلال التكرار الذاتي وإشراف Lean Professor. يعد هذا البرنامج التعليمي بمثابة برنامج تعليمي خطوة بخطوة حول كيفية استخدام العرض التوضيحي للنشر بنقرة واحدة للنموذج.
الاستخدام المباشر: https://go.hyper.ai/MevMB
2. LLaVA OneVision نموذج رؤية شاملة متعدد الوسائط تجريبي
يمكن للنموذج معالجة الصور والنصوص والمدخلات المتداخلة بين الصور والنصوص ومقاطع الفيديو. إنه أول نموذج فردي يمكنه اختراق اختناقات الأداء الخاصة بالنماذج المتعددة الوسائط المفتوحة في سيناريوهات الرؤية الحاسوبية الثلاثة المهمة هذه في وقت واحد. انتقل إلى الموقع الرسمي لاستنساخ الحاوية وبدء تشغيلها، ثم انسخ عنوان API مباشرةً، ومن ثم يمكنك تجربة استنتاج النموذج.
الاستخدام المباشر: https://go.hyper.ai/Dcg74
3. البرنامج التعليمي عبر الإنترنت | سيدي، لقد تغير عصر فينسنت فان جوخ مرة أخرى! قام أعضاء فريق SD الأساسيون بتأسيس شركتهم الخاصة، وكان النموذج الأول FLUX.1 بمثابة معركة شرسة ضد SD 3 وMidjourney
المنافسة في نموذج Wenshengtu أصبحت شرسة بشكل متزايد! قام الأعضاء الأساسيون السابقون في Stable Diffusion بتأسيس شركتهم الخاصة وأصدروا نموذج الرسم البياني النصي FLUX، والذي يغطي كل شيء من الاستخدام التجاري إلى الاستخدام الشخصي مفتوح المصدر. إن التأثير الناتج قريب جدًا من التصوير في الحياة الواقعية، وتفاصيل الشخصية واقعية جدًا. حاليًا، أطلقت hyper.ai "FLUX ComfyUI (بما في ذلك إصدار تدريب Black Myth Wukong LoRA)"، انقر فوق الرابط أدناه للنشر وفقًا للبرنامج التعليمي.
مباشرةيستخدم:https://go.hyper.ai/trQhv
مقالات المجتمع
وللتعامل مع فوضى التعرف على الوجه وتقنية DeepFake، هناك حاجة ملحة إلى تحديث تقنية التعرف على الوجه واكتشاف التزوير لتحديد ما إذا كان قد تم العبث بالصور ومقاطع الفيديو بدقة. قامت HyperAI بتجميع 11 مجموعة بيانات شائعة الاستخدام للتعرف على الوجوه وDeepFake لتتمكن من تنزيلها بنقرة واحدة فقط.
شاهد الملخص الكامل:https://go.hyper.ai/EMKo2
في مؤتمر إطلاق المنتجات الجديدة في الخريف في 10 سبتمبر، أطلقت Apple منتجات جديدة مثل iPhone 16 وAirPods 4 وApple Watch Series 10 وما إلى ذلك. بناءً على الرقائق التي طورتها بنفسها، فقد حققوا قفزة كبيرة في الأداء ودمجوا Apple Intelligence بالكامل لتقديم تجربة ذكية غير مسبوقة للمستخدمين. تقدم هذه المقالة تغطية شاملة لحدث إطلاق منتجات Apple الجديدة في الخريف.
شاهد التقرير الكامل:https://go.hyper.ai/H7P8X
في عملية التعرف على البروتين، يعد تحديد تشابه تسلسل البروتين أحد أهم المهام. ولحل نقاط الألم في أبحاث التشابه البروتيني البعيد، استنادًا إلى نماذج لغة البروتين وتكنولوجيا الاسترجاع الكثيف، اقترح لي يو من الجامعة الصينية في هونج كونج، بالتعاون مع صن سي تشي، وهو باحث شاب من مختبر الأنظمة المعقدة الذكية في جامعة فودان ومختبر الذكاء الاصطناعي في شنغهاي، ومارك جيرستين من جامعة ييل، إطار عمل للكشف عن التشابه فائق السرعة والحساسية - الباحث عن التشابه الكثيف. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.
شاهد التقرير الكامل:https://go.hyper.ai/vLAej
اقترح فريق تشين جين من مختبر الدولة الرئيسي لعمليات سطح الأرض وبيئة الموارد في جامعة بكين العادية نموذجًا معماريًا للاندماج المنفصل المكاني الزمني ثنائي التدفق، StarFusion، والذي يمكنه التغلب على المشكلة التي تتطلبها معظم خوارزميات التعلم العميق الحالية والتي تتطلب صور سلسلة زمنية HSR للتدريب وتحقيق التنبؤ الكامل بالصور عالية الدقة المكانية. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.
شاهد التقرير الكامل:https://go.hyper.ai/7LmzA
مقالات موسوعية شعبية
1. وظيفة السيني
2. اختبار t المقترن
3. التعلم التبايني
4. التعلم شبه الخاضع للإشراف
5. زيادة البيانات
فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event
حول HyperAI
HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:
* توفير عقد تنزيل محلية سريعة لأكثر من 1300 مجموعة بيانات عامة
* يتضمن أكثر من 400 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت
* تفسير أكثر من 100 حالة بحثية من AI4Science
* دعم البحث عن أكثر من 500 مصطلح ذي صلة
* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين
قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك: