HyperAI

نشر LLaMA 3 Chinese Chat بنقرة واحدة، بما في ذلك مجموعة بيانات التدريب الصينية؛ تنزيل مجموعة بيانات Food2K، بما في ذلك 2000 فئة ومليون صورة

特色图像

لقد أثار الإصدار المفتوح المصدر الأخير لـ Llama 3 حماس الجميع في دائرة الذكاء الاصطناعي، لكن دعمه للغة الصينية الصرفة ليس جيدًا جدًا، ولا يمكنه التبديل بمرونة إلى اللغة المقابلة للإجابة على الأسئلة الصينية.

هذا الأسبوع، أطلقت شركة hyper.ai البرنامج التعليمي للنشر والتفكير في Llama 3 Chinese Chat، النسخة الصينية من Llama 3.إنه يحل بشكل فعال مشكلة "الإجابة على الأسئلة الصينية باللغة الإنجليزية" ويجعل المحادثة أكثر طبيعية وسلاسة.لقد قام البرنامج التعليمي بنشر النموذج والبيئة. كل ما عليك فعله هو فتح عنوان API لتجربة الاستدلال!

لا أستطيع الانتظار، سأحاول ذلك:

https://go.hyper.ai/i3r7D

نفس مجموعة بيانات التدريب الصينية:

https://go.hyper.ai/uJlfk

من 27 مايو إلى 31 مايو، تحديثات الموقع الرسمي لـhyper.ai:

* مجموعات البيانات العامة عالية الجودة: 10

* دروس تعليمية مختارة عالية الجودة: 2

* اختيار المقالات المجتمعية: 4 مقالات

* إدخالات الموسوعة الشعبية: 5

* أفضل المؤتمرات مع الموعد النهائي في يونيو: 4

قم بزيارة الموقع الرسمي:هايبر.اي

مجموعات البيانات العامة المختارة

1. مجموعة بيانات النسخة الصينية من لعبة Llama 3

هذه المجموعة من البيانات عبارة عن مجموعة من مجموعات البيانات الصينية Llama 3. تمت معالجة البيانات بشكل موحد في تنسيق Firefly، ويمكن استخدامها مع أداة Firefly لتدريب نموذج Llama 3 الصيني بشكل مباشر.

الاستخدام المباشر:https://go.hyper.ai/uJlfk

2. مجموعة كبيرة من نصوص المحادثة الصينية النظيفة من LCCC

تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات. يمكن لمجموعة البيانات المفلترة تسهيل البحث في نمذجة المحادثة النصية القصيرة.

الاستخدام المباشر:https://go.hyper.ai/bDzEG

3. مجموعة بيانات التعرف على الطعام الكبيرة Food2K

Food2K عبارة عن مجموعة بيانات واسعة النطاق للتعرف على الأطعمة تحتوي على 2000 فئة من الأطعمة وأكثر من مليون صورة.

الاستخدام المباشر: https://go.hyper.ai/TpfUJ

4. مجموعة بيانات أزواج الصور والنصوص COYO-700M

يحتوي COYO-700M على 747 مليون زوج من الصور والنصوص والعديد من السمات الوصفية الأخرى، ويجمع العديد من النصوص البديلة المفيدة وأزواج الصور المرتبطة بها في مستندات HTML.

الاستخدام المباشر: https://go.hyper.ai/fWI1i

5. مجموعة بيانات الكشف عن الأهداف لجسر الصور الاستشعارية عن بُعد واسع النطاق GLH-Bridge

تحتوي مجموعة البيانات على 6000 صورة استشعار عن بعد عالية الدقة بتنسيق كبير، مع ما يقرب من 60000 حالة جسر عبر خلفيات مختلفة تم شرحها يدويًا. تنسيق الصورة هو 2048×2048-16384×16384 بكسل، ويحتوي على مجموعتين من تسميات اكتشاف الهدف: مربع الدوران والمربع الأفقي.

الاستخدام المباشر: https://go.hyper.ai/cHPeb

6. مجموعة بيانات الحوار متعدد الأدوار في المجال المفتوح متعدد الوسائط MMDialog

مجموعة البيانات عبارة عن مجموعة بيانات حوار مفتوحة النطاق ومتعددة الوسائط واسعة النطاق، تحتوي على 1.08 مليون جلسة حوار كاملة، وأكثر من 4000 موضوع حوار، و1.53 مليون صورة غير مكررة، بمتوسط 2.59 صورة لكل جلسة حوار.

الاستخدام المباشر: https://go.hyper.ai/iAbI2

7. مجموعة بيانات مرض السكري لدى الهنود البيما

تم الحصول على مجموعة البيانات في الأصل من المعهد الوطني للسكري وأمراض الجهاز الهضمي والكلى، والغرض منها هو التنبؤ تشخيصيًا بما إذا كان المريض مصابًا بالسكري بناءً على قياسات تشخيصية معينة مدرجة في مجموعة البيانات.

الاستخدام المباشر: https://go.hyper.ai/XqJXe

8. مجموعة بيانات LamaH-CE لعلم المياه والبيئة في أوروبا الوسطى

يحتوي LamaH-CE على سلاسل زمنية للجريان السطحي والأرصاد الجوية لـ 859 مستجمعات مياه تم قياسها بالإضافة إلى سمات مختلفة (مستجمعات المياه). تتوفر سلاسل زمنية هيدرولوجية مع دقة زمنية يومية وساعة وتتضمن علامات الجودة. تمتد جميع السلاسل الزمنية للأرصاد الجوية ومعظم تدفقات المياه لأكثر من 35 عامًا.

الاستخدام المباشر:https://go.hyper.ai/UPZvA

9. مجموعة بيانات CAMELS-GB لخصائص مستجمعات المياه في المملكة المتحدة والسلاسل الزمنية الهيدروميترية

توفر مجموعة البيانات هذه سلاسل زمنية هيدرولوجية وسمات المناظر الطبيعية لـ 671 حوضًا في المملكة المتحدة. يقوم بجمع تدفقات الأنهار وخصائص مستجمعات المياه وحدود مستجمعات المياه من أرشيف تدفق الأنهار الوطني في المملكة المتحدة ومجموعة جديدة من السلاسل الزمنية للأرصاد الجوية وخصائص مستجمعات المياه.

الاستخدام المباشر:https://go.hyper.ai/KA29l

10. مجموعة بيانات تحرير الصور المستندة إلى تعليمات HQ-Edit

يحتوي HQ-Edit على حوالي 200000 مثال تحرير، كل منها يحتوي على صورة إدخال، وصورة إخراج، وتعليمات تحرير مفصلة.

الاستخدام المباشر:https://go.hyper.ai/xjahh

لمزيد من مجموعات البيانات العامة، يرجى زيارة:

https://hyper.ai/datasets

دروس تعليمية عامة مختارة

1. نشر Llama 3-Chinese-Chat-8b Demo بنقرة واحدة

النموذج المستخدم في هذا البرنامج التعليمي هو النسخة الصينية الأولى من Llama 3، وهو نموذج لغوي يحتوي على تعليمات دقيقة للمستخدمين الصينيين والإنجليز، ولديه قدرات متعددة مثل لعب الأدوار واستخدام الأدوات. كل ما عليك فعله هو استنساخ الحاوية وبدء تشغيلها، ثم نسخ عنوان API الناتج مباشرةً لتجربة الاستدلال على النموذج.

تشغيل عبر الإنترنت:https://go.hyper.ai/i3r7D

2. البرنامج التعليمي عبر الإنترنت丨مشابه للطريق الفني الخاص بـSora! أول نموذج DiT مفتوح المصدر في العالم لفيديو Vincent، يتم نشر Latte بنقرة واحدة

Latte هو نموذج مبتكر لتوليد الفيديو تم إتاحته مفتوح المصدر في نوفمبر 2023. وباعتباره أول نموذج فيديو Vincent DiT مفتوح المصدر في العالم، حقق Latte نتائج واعدة. يعد هذا البرنامج التعليمي عرضًا توضيحيًا لمشروع Latte.

تشغيل عبر الإنترنت: https://go.hyper.ai/LFfmt

معاينة البث المباشر لمحطة B

ستعقد شركة Apple مؤتمر WWDC 2024 في الفترة من 10 إلى 14 يونيو. من أجل مساعدة الجميع في الحصول على معلومات متعمقة حول Apple، ستواصل Super Neurological B Station Live Room بث مقاطع فيديو "Apple Special"، والتي تغطي: مؤتمرات WWDC على مر السنين، والمقابلات التنفيذية، والأفلام الوثائقية ذات الصلة وغيرها من المحتوى الغني.في ذلك الوقت، سوف يقوم تشاو شينجينج أيضًا ببث الحفل مباشرةً على حساب الفيديو وبيليبيلي، لذا احجز موعدًا الآن ولا تفوته~

الجدول التالي هو معاينة لمحتوى البث المباشر للأسبوع المقبل الذي اختاره المحرر↓↓↓

تاريخوقتمحتوى
1 يونيو
الاثنين
18:00ستيف جوبز
الثلاثاء 2 يونيو18:00ما الذي يجعل التفاحة تفاحة؟
الأربعاء 3 يونيو18:00مقابلة مع ستيف جوبز مقابل بيل جيتس
الخميس 4 يونيو18:00الإصدار الأول للآيفون
الجمعة 5 يونيو18:00تاريخ ستيف جوبز
السبت 6 يونيو18:00كيف نجت شركة أبل من الإفلاس تقريبًا
الأحد 7 يونيو18:00تاريخ تيم كوك

تبث قناة Super Neuro TV بثًا مباشرًا على مدار 24 ساعة طوال أيام الأسبوع. انقر للحصول على "المخللات الإلكترونية" في مجال الذكاء الاصطناعي:

http://live.bilibili.com/26483094

مقالات المجتمع

1. [ملخص مجموعة البيانات] أصدر مكتب الأرصاد الجوية كتالوج بيانات التدريب لأول مرة! CAMELS - مجموعات البيانات الجوية الفلكية الأمريكية والموقع الرسمي الآخر على الإنترنت

في الأسبوع الماضي، أصدرت إدارة الأرصاد الجوية الصينية لأول مرة "كتالوج البيانات الخاص لتدريب نموذج الأرصاد الجوية الكبير للذكاء الاصطناعي"، والذي يجمع كميات هائلة من البيانات الجوية. أصبح الكتالوج الآن متاحًا للتنزيل على الموقع الرسمي لمكتب الأرصاد الجوية. بالإضافة إلى ذلك، من أجل مساعدة الجميع على فهم واستخدام موارد البيانات ذات الصلة، قامت HyperAI أيضًا بتجميع 10 مجموعات بيانات عالية الجودة للكوارث الجوية هذا الأسبوع لتعزيز تقدم الأبحاث ذات الصلة بشكل أفضل وفتح فصل جديد في البحث في مجال الأرصاد الجوية.

احصل على معلومات مفصلة:https://go.hyper.ai/kK87m

2. تحليل وتدريب البيانات من أكثر من 2000 محطة هيدرولوجية حول العالم. أصدر فريق الأكاديمية الصينية للعلوم ED-DLSTM لتحقيق التنبؤ بالفيضانات في المناطق التي لا تحتوي على بيانات مراقبة

اقترح فريق أويانغ تشاوجون من معهد تشنغدو لمخاطر الجبال والبيئة، التابع للأكاديمية الصينية للعلوم، نموذجًا للتنبؤ بالجريان السطحي والفيضانات يعتمد على الذكاء الاصطناعي ED-DLSTM. من خلال ترميز الخصائص الثابتة لمستجمعات المياه والعوامل الجوية، واستخدام البيانات من أكثر من 2000 محطة هيدرولوجية حول العالم للتدريب على النماذج، حاول الباحثون حل مشكلة التنبؤ بالجريان السطحي في مستجمعات المياه مع أو بدون بيانات مراقبة في جميع أنحاء العالم. هذه المقالة عبارة عن تفسير مفصل ومشاركة للبحث.

شاهد التقرير الكامل:https://go.hyper.ai/eG6H5

3. واجهة الدماغ والحاسوب: إضافة للطب الحديث، ومقامرة للمرضى المصابين بالشلل

وقد أجرت جامعة تسينغهوا، وجامعة تشجيانغ، وجامعة ستانفورد، وجامعة براون، وجامعة جونز هوبكنز، وغيرها من الجامعات المحلية والأجنبية أبحاثًا ذات صلة بواجهات الدماغ والحاسوب. تبدأ هذه المقالة بالمفهوم وتقدم الأشكال الثلاثة الرئيسية لتطبيق واجهة الدماغ والحاسوب، وحالات بحثية محددة من جامعات مشهورة في الداخل والخارج، وأخلاقيات وسلامة واجهة الدماغ والحاسوب، وما إلى ذلك.

شاهد التقرير الكامل:https://go.hyper.ai/W3pPf

4. نُشر في مجلة MNRAS، وهي مجلة رائدة في علم الفلك! استخدم مرصد شنغهاي الفلكي التابع للأكاديمية الصينية للعلوم الذكاء الاصطناعي لاكتشاف 107 خطوط امتصاص الكربون المحايد بدقة اكتشاف تبلغ 99.8%

استخدم الفريق بقيادة جي جيان، الباحث في مرصد شنغهاي الفلكي التابع للأكاديمية الصينية للعلوم، أساليب التعلم العميق للبحث عن خطوط امتصاص الكربون المحايدة في البيانات الصادرة عن مسح سلون سكاي الثالث، وكشفوا عن لغز تكوين سحب الغاز الباردة في المجرات المبكرة واكتشاف 107 أمثلة على خطوط امتصاص الكربون المحايدة في الكون المبكر. هذه المقالة عبارة عن تفسير مفصل ومشاركة للبحث.

شاهد التقرير الكامل:https://go.hyper.ai/qirkz

مقالات موسوعية شعبية

1. العصر

2. مجال الإشعاع العصبي (NeRF)

3. قانون القياس

4. YOLOv10 الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي

5. شبكات كولموغوروف-أرنولد

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://hyper.ai/wiki

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:

https://hyper.ai/events

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة

* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 100 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

وأخيرًا، أوصي بـ "برنامج حوافز المبدعين". يمكن للأصدقاء المهتمين مسح رمز الاستجابة السريعة للمشاركة!