HyperAI

اختيارات المحرر الأسبوعية | مايكروسوفت تتيح الوصول إلى مجموعة بيانات Orca-Math الرياضية عالية الجودة، ويصدر فريق البحث في جامعة تسينغهوا نموذج انتشار إزالة الضوضاء المشروط SPDiff

特色图像

Orca-Math هو نموذج تفكير رياضي أصدرته شركة Microsoft Research.يوضح هذا النموذج قيمة النماذج المتخصصة الأصغر حجمًا في مجالات محددة، حيث يمكنها أن تتطابق مع أداء النماذج الأكبر أو حتى تتجاوزه.قامت شركة Microsoft مؤخرًا بفتح مصدر مجموعة بيانات مسائل الكلمات الرياضية Orca-Math-200K المستخدمة لتدريب Orca-Math. أصبح الآن متاحًا للتنزيل على الموقع الرسمي لـhyper.ai. تعالوا وجربوها!

من 11 مارس إلى 15 مارس، تحديثات الموقع الرسمي لـhyper.ai:

* مجموعات البيانات العامة عالية الجودة: 10

* دروس تعليمية عامة عالية الجودة: 2

* اختيار المقالات المجتمعية: 3 مقالات

* إدخالات الموسوعة الشعبية: 10

قم بزيارة الموقع الرسمي:هايبر.اي

مجموعات البيانات العامة المختارة

1. مجموعة بيانات مسائل الكلمات الرياضية من مايكروسوفت Orca-Math-200K

Orca-Math-200K عبارة عن مجموعة بيانات تركيبية عالية الجودة أنشأتها شركة Microsoft وتحتوي على ما يقرب من 200000 سؤال في الرياضيات للمدارس الابتدائية. يتم إنشاء جميع الإجابات في مجموعة البيانات هذه باستخدام Azure GPT4-Turbo.

الاستخدام المباشر:

https://my5353.com/30060

2. MULTI-Benchmark: لوحة متصدرين للفهم المتعدد الوسائط مع النص والصور

تعد مجموعة البيانات هذه بمثابة معيار متعدد الوسائط MULTI الذي أصدرته جامعة شنغهاي جياو تونغ، والذي يهدف إلى تقييم قدرة النماذج متعددة الوسائط الكبيرة على فهم الجداول والصور المعقدة وإجراء استنتاجات نصية طويلة. يوفر الاختبار مدخلات متعددة الوسائط ويتطلب أن تكون الإجابات دقيقة أو مفتوحة، مما يعكس أسلوب الاختبار في الحياة الواقعية. يحتوي MULTI على أكثر من 18000 سؤال، تغطي مجموعة متنوعة من المهام من اشتقاق الصيغة إلى تحليل الصور والتفكير المتقاطع.

الاستخدام المباشر:

https://my5353.com/30062

3. مجموعة استخراج المعلومات واسعة النطاق IEPile 

IEPile هي مجموعة بيانات ضبط تعليمات استخراج المعلومات (IE) ثنائية اللغة (الصينية والإنجليزية) واسعة النطاق وعالية الجودة، طورتها جامعة تشجيانغ، وتغطي ثلاث مهام فرعية أساسية: التعرف على الكيان المسمى (NER)، واستخراج العلاقات (RE)، واستخراج الأحداث (EE). تحتوي مجموعة البيانات على حوالي 2 مليون عينة تعليمات، بإجمالي حوالي 320 مليون رمز، تغطي مجالات متعددة مثل المجال العام والطبي والمالي.

الاستخدام المباشر:

https://my5353.com/30064

4. مجموعة بيانات السمات الجوهرية للوجه FFHQ-UV لإعادة بناء الوجه ثلاثي الأبعاد

FFHQ-UV-Intrinsic عبارة عن مجموعة بيانات لسمات الوجه الجوهرية تم إنشاؤها بواسطة Ubisoft LaForge استنادًا إلى مجموعة بيانات FFHQ-UV. تحتوي مجموعة البيانات على السمات الجوهرية للوجه لـ 10000 شخص، بما في ذلك الانعكاس المنتشر، والانعكاس المرآوي، والانسداد المحيط، وخرائط الشفافية. إنها أول مجموعة بيانات وجهية واسعة النطاق متاحة للعامة وتوفر سمات جوهرية عالية الدقة.

الاستخدام المباشر:

https://my5353.com/30113

5. مجموعة بيانات GITQA للإجابة على أسئلة الاستدلال البياني متعدد الوسائط

GITQA هي أول مجموعة بيانات للإجابة على الأسئلة المنطقية تحتوي على رسوم بيانية مرئية تم إنشاؤها بواسطة جامعة هونج كونج للعلوم والتكنولوجيا وجامعة جنوب العلوم والتكنولوجيا. تحتوي مجموعة البيانات على أكثر من 423 ألف نموذج للإجابة على الأسئلة، يحتوي كل منها على معلومات نصية ورسومية ومرئية مقابلة وزوج الأسئلة والإجابات المقابل.

الاستخدام المباشر:

https://my5353.com/30116

6. مجموعة بيانات الضبط الدقيق للتعليمات الكيميائية SMolInstruct

SMolInstruct هي مجموعة بيانات واسعة النطاق وشاملة وعالية الجودة لضبط التعليمات الكيميائية اقترحتها جامعة ولاية أوهايو. تحتوي مجموعة البيانات على 14 مهمة كيميائية مختلفة، بإجمالي يزيد عن 3 ملايين عينة، وتغطي 1.6 مليون جزيء فريد.

الاستخدام المباشر:

https://my5353.com/30133

7. مجموعة بيانات الموسيقى الكبيرة MusicPile

MusicPile هي مجموعة بيانات واسعة النطاق للتدريب المسبق للغة الموسيقى تم إطلاقها بشكل مشترك من قبل مجتمع أبحاث إسقاط الفن المتعدد الوسائط وSkywork AI وجامعة هونج كونج للعلوم والتكنولوجيا. تحتوي مجموعة البيانات على 5.17 مليون عينة وحوالي 4.16 مليار رمز، من مصادر تشمل كتب الموسيقى، وترجمات موسيقى يوتيوب، وأعمال تدوين ABC، وما إلى ذلك. يغطي MusicPile مجموعة واسعة من الحس السليم للموسيقى، وأسئلة المعرفة وأجوبتها، ومحتوى النظرية الموسيقية النموذجية، مما يلعب دورًا رئيسيًا في تحسين فهم الموسيقى والقدرة على إنشاء النموذج الكبير.

الاستخدام المباشر:

https://my5353.com/30136

8. مجموعة بيانات مفتوحة المصدر لـ seq-monkey sequence monkey 1.0

Sequence Monkey هو نموذج لغوي واسع النطاق تقدمه شركة Mobvoi. مجموعة بيانات Sequence Monkey هي مجموعة بيانات تستخدم لتدريب نموذج Sequence Monkey. تم استخراج بعض مجموعات البيانات وفتحها للجمهور: وتشمل المجالات المعنية: مجموعة النصوص الصينية العامة، ومجموعة نصوص ترجمة الشعر القديم، ومجموعة نصوص توليد النصوص.

الاستخدام المباشر:

https://my5353.com/30139

9. مجموعة بيانات مراجعة الأفلام القصيرة من دوبان، الإصدار الثاني

تحتوي مجموعة البيانات على أكثر من 2 مليون مراجعة قصيرة لـ 28 فيلمًا من موقع Douban للأفلام. يمكن استخدامه لتصنيف النصوص، وتجميع النصوص، وتحليل المشاعر، وبناء الشبكة الدلالية، وغيرها من المجالات المتعلقة بتعدين الويب أو معالجة اللغة الطبيعية.

الاستخدام المباشر:

https://my5353.com/30011

١٠. AdaDR - مجموعة بيانات من ورقة بحثية بعنوان "إعادة تنظيم الأدوية بناءً على طريقة GCN التكيفية"

تم استخدام مجموعة البيانات هذه في الورقة البحثية "إعادة تحديد موضع الدواء بناءً على طريقة GCN التكيفية". لتقييم أداء النموذج المقترح بشكل شامل، استخدم فريق البحث أربع مجموعات بيانات مرجعية: Gdataset (Gottlieb et al. 2011)، وCdataset (Luo et al. 2016)، وLdataset (Yu et al. 2021) وLRSSL (Liang et al. 2017)، والتي يمكن تطبيقها على مهمة إعادة تموضع الدواء.

الاستخدام المباشر:

https://my5353.com/30057

للحصول على المزيد من مجموعات البيانات المحدثة هذا الأسبوع، يرجى زيارة:

https://hyper.ai/datasets

دروس تعليمية عامة مختارة

1. تصنيف الزهور باستخدام التعلم الانتقالي

يوضح هذا البرنامج التعليمي كيفية استخدام التعلم بالنقل لإجراء تصنيف الصور على مجموعة بيانات من صور الزهور. في هذا البرنامج التعليمي، سوف نستخدم شبكة عصبية ملتوية مدربة مسبقًا (CNN) كمستخرج للميزات ونبني مصنفًا مخصصًا في الأعلى للتنبؤ بأنواع الزهور.

تشغيل البرنامج التعليمي عبر الإنترنت:

https://my5353.com/n30069

2. تحديد كمية محولات الرؤية (Vit) من أجل نشر فعال: الاستراتيجيات وأفضل الممارسات

مع استمرار ارتفاع الطلب على أنظمة الرؤية الحاسوبية المتقدمة عبر الصناعات، أصبح نشر محولات الرؤية محط اهتمام الباحثين والممارسين. ومع ذلك، فإن تحقيق الإمكانات الكاملة لهذه النماذج يتطلب فهمًا عميقًا لهندستها المعمارية. وبالإضافة إلى ذلك، فمن المهم بنفس القدر تطوير استراتيجيات التحسين لنشر هذه النماذج بشكل فعال.

يوفر هذا البرنامج التعليمي استكشافًا شاملاً لهندسة Vision Transformer ومكوناتها الرئيسية والأساس المنطقي الذي يجعلها فريدة من نوعها. في نهاية البرنامج التعليمي، تتم مناقشة بعض استراتيجيات التحسين مع عروض توضيحية للكود لجعل النموذج أكثر إحكاما لتسهيل النشر.

تشغيل البرنامج التعليمي عبر الإنترنت:

https://my5353.com/n30119

مقالات المجتمع

1. هناك حاجة إلى عينات تدريب 5% فقط لتحقيق الأداء الأمثل. أصدر فريق البحث بجامعة تسينغهوا نموذج انتشار إزالة الضوضاء المشروط SPDiff لتحقيق محاكاة التدفق البشري على المدى الطويل

اقترح فريق بحثي من جامعة تسينغهوا نموذجًا جديدًا لانتشار إزالة الضوضاء المشروطة SPDiff، والذي يمكنه الاستفادة بشكل فعال من ديناميكيات التفاعل لمحاكاة سلوك الحشود من خلال عملية انتشار موجهة بالقوى الاجتماعية. وقد تم نشر الورقة ذات الصلة في مجلة AAAI 2024.

شاهد التقرير الكامل:

https://my5353.com/n30069

2. أنشأ فريق البحث بجامعة بكين للمعلمين نموذج ECA-Net للتنبؤ بإمكانية استخدام طاقة الرياح في الصين في السنوات السبعين المقبلة

نشر فريق بحثي من كلية البيئة بجامعة بكين للمعلمين مؤخرًا ورقة بحثية لتقييم مدى تغير إمكانات طاقة الرياح في بلدي في ظل ظاهرة الاحتباس الحراري العالمي. استخدمت الدراسة 22 نموذجًا مناخيًا عالميًا من مشروع CMIP6 كمخرجات لتوفير تقييم قوي لعدم اليقين بين النماذج. وتظهر النتائج أن كثافة طاقة الرياح الإجمالية في بلدي ستشهد اتجاها هبوطيا طفيفا خلال هذا القرن. وقد تم نشر الورقة ذات الصلة في "منشورات الجمعية الكيميائية الأمريكية".

شاهد التقرير الكامل:

https://my5353.com/n30119

3العد التنازلي لـ Nvidia 2024 GTC، هل سيقدم Huang Renxun مبادرات جديدة للسوق الصينية؟

من المقرر عقد مؤتمر GTC AI لعام 2024 في الفترة من 18 إلى 21 مارس. سيحضر هوانغ رينكسون مشاركته السنوية من الساعة الرابعة إلى السادسة صباحًا بتوقيت بكين في 19 مارس، تحت عنوان "الشهادة على اللحظة التحويلية للذكاء الاصطناعي". استنادًا إلى الخطب والمقابلات والاتجاهات الصناعية الأخيرة التي ألقاها هوانغ، قدمت HyperAI تنبؤًا جريئًا حول موضوع خطابه.

شاهد التقرير الكامل:

https://my5353.com/n30151

موسوعةالإدخالات المختارة

1. متوسط الدقة (mAP)

2. تجزئة المثيلات

3. التقاطع فوق الاتحاد (IoU)

4. الاستيفاء متعدد الحدود

5. اندماج الرتب المتبادل (RRF)

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://hyper.ai/wiki

معاينة البث المباشر لمحطة B

تاريخوقتمحتوى
18 مارس
الاثنين
10:0017:00دورة التعلم العميق من معهد ماساتشوستس للتكنولوجيا 2020دورة التعلم العميق من معهد ماساتشوستس للتكنولوجيا 2021
الثلاثاء 19 مارس10:00تطوير واجهة برمجة التطبيقات (API) باستخدام Python - دورة شاملة للمبتدئين
الأربعاء 20 مارس10:0014:00دورة SQL التعليمية - دورة المبتدئين في الذكاء الاصطناعي التوليدي - الدورة الكاملة
الخميس 21 مارس21:00دورات Flutter للمبتدئين
الجمعة 22 مارس10:00دورات Flutter للمبتدئين
السبت 23 مارس10:00هارفارد CS50 - دورة الذكاء الاصطناعي بايثون
الأحد 24 مارس10:00تعلم PyTorch للتعلم العميق في يوم واحد

تبث قناة Super Neuro TV بثًا مباشرًا على مدار الساعة طوال أيام الأسبوع، وتقدم باستمرار رؤى حول صناعة الذكاء الاصطناعي. دعونا نتعلم معًا:

http://live.bilibili.com/26483094

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة

* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 100 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai/