اختيارات المحرر الأسبوعية | مايكروسوفت تتيح الوصول إلى مجموعة بيانات Orca-Math الرياضية عالية الجودة، ويصدر فريق البحث في جامعة تسينغهوا نموذج انتشار إزالة الضوضاء المشروط SPDiff

Orca-Math هو نموذج تفكير رياضي أصدرته شركة Microsoft Research.يوضح هذا النموذج قيمة النماذج المتخصصة الأصغر حجمًا في مجالات محددة، حيث يمكنها أن تتطابق مع أداء النماذج الأكبر أو حتى تتجاوزه.قامت شركة Microsoft مؤخرًا بفتح مصدر مجموعة بيانات مسائل الكلمات الرياضية Orca-Math-200K المستخدمة لتدريب Orca-Math. أصبح الآن متاحًا للتنزيل على الموقع الرسمي لـhyper.ai. تعالوا وجربوها!
من 11 مارس إلى 15 مارس، تحديثات الموقع الرسمي لـhyper.ai:
* مجموعات البيانات العامة عالية الجودة: 10
* دروس تعليمية عامة عالية الجودة: 2
* اختيار المقالات المجتمعية: 3 مقالات
* إدخالات الموسوعة الشعبية: 10
قم بزيارة الموقع الرسمي:هايبر.اي
مجموعات البيانات العامة المختارة
1. مجموعة بيانات مسائل الكلمات الرياضية من مايكروسوفت Orca-Math-200K
Orca-Math-200K عبارة عن مجموعة بيانات تركيبية عالية الجودة أنشأتها شركة Microsoft وتحتوي على ما يقرب من 200000 سؤال في الرياضيات للمدارس الابتدائية. يتم إنشاء جميع الإجابات في مجموعة البيانات هذه باستخدام Azure GPT4-Turbo.
الاستخدام المباشر:
2. MULTI-Benchmark: لوحة متصدرين للفهم المتعدد الوسائط مع النص والصور
تعد مجموعة البيانات هذه بمثابة معيار متعدد الوسائط MULTI الذي أصدرته جامعة شنغهاي جياو تونغ، والذي يهدف إلى تقييم قدرة النماذج متعددة الوسائط الكبيرة على فهم الجداول والصور المعقدة وإجراء استنتاجات نصية طويلة. يوفر الاختبار مدخلات متعددة الوسائط ويتطلب أن تكون الإجابات دقيقة أو مفتوحة، مما يعكس أسلوب الاختبار في الحياة الواقعية. يحتوي MULTI على أكثر من 18000 سؤال، تغطي مجموعة متنوعة من المهام من اشتقاق الصيغة إلى تحليل الصور والتفكير المتقاطع.
الاستخدام المباشر:
3. مجموعة استخراج المعلومات واسعة النطاق IEPile
IEPile هي مجموعة بيانات ضبط تعليمات استخراج المعلومات (IE) ثنائية اللغة (الصينية والإنجليزية) واسعة النطاق وعالية الجودة، طورتها جامعة تشجيانغ، وتغطي ثلاث مهام فرعية أساسية: التعرف على الكيان المسمى (NER)، واستخراج العلاقات (RE)، واستخراج الأحداث (EE). تحتوي مجموعة البيانات على حوالي 2 مليون عينة تعليمات، بإجمالي حوالي 320 مليون رمز، تغطي مجالات متعددة مثل المجال العام والطبي والمالي.
الاستخدام المباشر:
4. مجموعة بيانات السمات الجوهرية للوجه FFHQ-UV لإعادة بناء الوجه ثلاثي الأبعاد
FFHQ-UV-Intrinsic عبارة عن مجموعة بيانات لسمات الوجه الجوهرية تم إنشاؤها بواسطة Ubisoft LaForge استنادًا إلى مجموعة بيانات FFHQ-UV. تحتوي مجموعة البيانات على السمات الجوهرية للوجه لـ 10000 شخص، بما في ذلك الانعكاس المنتشر، والانعكاس المرآوي، والانسداد المحيط، وخرائط الشفافية. إنها أول مجموعة بيانات وجهية واسعة النطاق متاحة للعامة وتوفر سمات جوهرية عالية الدقة.
الاستخدام المباشر:
5. مجموعة بيانات GITQA للإجابة على أسئلة الاستدلال البياني متعدد الوسائط
GITQA هي أول مجموعة بيانات للإجابة على الأسئلة المنطقية تحتوي على رسوم بيانية مرئية تم إنشاؤها بواسطة جامعة هونج كونج للعلوم والتكنولوجيا وجامعة جنوب العلوم والتكنولوجيا. تحتوي مجموعة البيانات على أكثر من 423 ألف نموذج للإجابة على الأسئلة، يحتوي كل منها على معلومات نصية ورسومية ومرئية مقابلة وزوج الأسئلة والإجابات المقابل.
الاستخدام المباشر:
6. مجموعة بيانات الضبط الدقيق للتعليمات الكيميائية SMolInstruct
SMolInstruct هي مجموعة بيانات واسعة النطاق وشاملة وعالية الجودة لضبط التعليمات الكيميائية اقترحتها جامعة ولاية أوهايو. تحتوي مجموعة البيانات على 14 مهمة كيميائية مختلفة، بإجمالي يزيد عن 3 ملايين عينة، وتغطي 1.6 مليون جزيء فريد.
الاستخدام المباشر:
7. مجموعة بيانات الموسيقى الكبيرة MusicPile
MusicPile هي مجموعة بيانات واسعة النطاق للتدريب المسبق للغة الموسيقى تم إطلاقها بشكل مشترك من قبل مجتمع أبحاث إسقاط الفن المتعدد الوسائط وSkywork AI وجامعة هونج كونج للعلوم والتكنولوجيا. تحتوي مجموعة البيانات على 5.17 مليون عينة وحوالي 4.16 مليار رمز، من مصادر تشمل كتب الموسيقى، وترجمات موسيقى يوتيوب، وأعمال تدوين ABC، وما إلى ذلك. يغطي MusicPile مجموعة واسعة من الحس السليم للموسيقى، وأسئلة المعرفة وأجوبتها، ومحتوى النظرية الموسيقية النموذجية، مما يلعب دورًا رئيسيًا في تحسين فهم الموسيقى والقدرة على إنشاء النموذج الكبير.
الاستخدام المباشر:
8. مجموعة بيانات مفتوحة المصدر لـ seq-monkey sequence monkey 1.0
Sequence Monkey هو نموذج لغوي واسع النطاق تقدمه شركة Mobvoi. مجموعة بيانات Sequence Monkey هي مجموعة بيانات تستخدم لتدريب نموذج Sequence Monkey. تم استخراج بعض مجموعات البيانات وفتحها للجمهور: وتشمل المجالات المعنية: مجموعة النصوص الصينية العامة، ومجموعة نصوص ترجمة الشعر القديم، ومجموعة نصوص توليد النصوص.
الاستخدام المباشر:
9. مجموعة بيانات مراجعة الأفلام القصيرة من دوبان، الإصدار الثاني
تحتوي مجموعة البيانات على أكثر من 2 مليون مراجعة قصيرة لـ 28 فيلمًا من موقع Douban للأفلام. يمكن استخدامه لتصنيف النصوص، وتجميع النصوص، وتحليل المشاعر، وبناء الشبكة الدلالية، وغيرها من المجالات المتعلقة بتعدين الويب أو معالجة اللغة الطبيعية.
الاستخدام المباشر:
١٠. AdaDR - مجموعة بيانات من ورقة بحثية بعنوان "إعادة تنظيم الأدوية بناءً على طريقة GCN التكيفية"
تم استخدام مجموعة البيانات هذه في الورقة البحثية "إعادة تحديد موضع الدواء بناءً على طريقة GCN التكيفية". لتقييم أداء النموذج المقترح بشكل شامل، استخدم فريق البحث أربع مجموعات بيانات مرجعية: Gdataset (Gottlieb et al. 2011)، وCdataset (Luo et al. 2016)، وLdataset (Yu et al. 2021) وLRSSL (Liang et al. 2017)، والتي يمكن تطبيقها على مهمة إعادة تموضع الدواء.
الاستخدام المباشر:
للحصول على المزيد من مجموعات البيانات المحدثة هذا الأسبوع، يرجى زيارة:
دروس تعليمية عامة مختارة
1. تصنيف الزهور باستخدام التعلم الانتقالي
يوضح هذا البرنامج التعليمي كيفية استخدام التعلم بالنقل لإجراء تصنيف الصور على مجموعة بيانات من صور الزهور. في هذا البرنامج التعليمي، سوف نستخدم شبكة عصبية ملتوية مدربة مسبقًا (CNN) كمستخرج للميزات ونبني مصنفًا مخصصًا في الأعلى للتنبؤ بأنواع الزهور.
تشغيل البرنامج التعليمي عبر الإنترنت:
2. تحديد كمية محولات الرؤية (Vit) من أجل نشر فعال: الاستراتيجيات وأفضل الممارسات
مع استمرار ارتفاع الطلب على أنظمة الرؤية الحاسوبية المتقدمة عبر الصناعات، أصبح نشر محولات الرؤية محط اهتمام الباحثين والممارسين. ومع ذلك، فإن تحقيق الإمكانات الكاملة لهذه النماذج يتطلب فهمًا عميقًا لهندستها المعمارية. وبالإضافة إلى ذلك، فمن المهم بنفس القدر تطوير استراتيجيات التحسين لنشر هذه النماذج بشكل فعال.
يوفر هذا البرنامج التعليمي استكشافًا شاملاً لهندسة Vision Transformer ومكوناتها الرئيسية والأساس المنطقي الذي يجعلها فريدة من نوعها. في نهاية البرنامج التعليمي، تتم مناقشة بعض استراتيجيات التحسين مع عروض توضيحية للكود لجعل النموذج أكثر إحكاما لتسهيل النشر.
تشغيل البرنامج التعليمي عبر الإنترنت:
مقالات المجتمع
اقترح فريق بحثي من جامعة تسينغهوا نموذجًا جديدًا لانتشار إزالة الضوضاء المشروطة SPDiff، والذي يمكنه الاستفادة بشكل فعال من ديناميكيات التفاعل لمحاكاة سلوك الحشود من خلال عملية انتشار موجهة بالقوى الاجتماعية. وقد تم نشر الورقة ذات الصلة في مجلة AAAI 2024.
شاهد التقرير الكامل:
نشر فريق بحثي من كلية البيئة بجامعة بكين للمعلمين مؤخرًا ورقة بحثية لتقييم مدى تغير إمكانات طاقة الرياح في بلدي في ظل ظاهرة الاحتباس الحراري العالمي. استخدمت الدراسة 22 نموذجًا مناخيًا عالميًا من مشروع CMIP6 كمخرجات لتوفير تقييم قوي لعدم اليقين بين النماذج. وتظهر النتائج أن كثافة طاقة الرياح الإجمالية في بلدي ستشهد اتجاها هبوطيا طفيفا خلال هذا القرن. وقد تم نشر الورقة ذات الصلة في "منشورات الجمعية الكيميائية الأمريكية".
شاهد التقرير الكامل:
3. العد التنازلي لـ Nvidia 2024 GTC، هل سيقدم Huang Renxun مبادرات جديدة للسوق الصينية؟
من المقرر عقد مؤتمر GTC AI لعام 2024 في الفترة من 18 إلى 21 مارس. سيحضر هوانغ رينكسون مشاركته السنوية من الساعة الرابعة إلى السادسة صباحًا بتوقيت بكين في 19 مارس، تحت عنوان "الشهادة على اللحظة التحويلية للذكاء الاصطناعي". استنادًا إلى الخطب والمقابلات والاتجاهات الصناعية الأخيرة التي ألقاها هوانغ، قدمت HyperAI تنبؤًا جريئًا حول موضوع خطابه.
شاهد التقرير الكامل:
https://my5353.com/n30151
موسوعةالإدخالات المختارة
1. متوسط الدقة (mAP)
2. تجزئة المثيلات
3. التقاطع فوق الاتحاد (IoU)
4. الاستيفاء متعدد الحدود
5. اندماج الرتب المتبادل (RRF)
فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:
معاينة البث المباشر لمحطة B
تاريخ | وقت | محتوى |
18 مارس الاثنين | 10:0017:00 | دورة التعلم العميق من معهد ماساتشوستس للتكنولوجيا 2020دورة التعلم العميق من معهد ماساتشوستس للتكنولوجيا 2021 |
الثلاثاء 19 مارس | 10:00 | تطوير واجهة برمجة التطبيقات (API) باستخدام Python - دورة شاملة للمبتدئين |
الأربعاء 20 مارس | 10:0014:00 | دورة SQL التعليمية - دورة المبتدئين في الذكاء الاصطناعي التوليدي - الدورة الكاملة |
الخميس 21 مارس | 21:00 | دورات Flutter للمبتدئين |
الجمعة 22 مارس | 10:00 | دورات Flutter للمبتدئين |
السبت 23 مارس | 10:00 | هارفارد CS50 - دورة الذكاء الاصطناعي بايثون |
الأحد 24 مارس | 10:00 | تعلم PyTorch للتعلم العميق في يوم واحد |
تبث قناة Super Neuro TV بثًا مباشرًا على مدار الساعة طوال أيام الأسبوع، وتقدم باستمرار رؤى حول صناعة الذكاء الاصطناعي. دعونا نتعلم معًا:
http://live.bilibili.com/26483094
إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!
نراكم في الاسبوع القادم!
حول HyperAI
HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:
* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة
* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت
* تفسير أكثر من 100 حالة بحثية من AI4Science
* دعم البحث عن أكثر من 500 مصطلح ذي صلة
* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين
قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك: