نشر LLaMA 3 Chinese Chat بنقرة واحدة، بما في ذلك مجموعة بيانات التدريب الصينية؛ تنزيل مجموعة بيانات Food2K، بما في ذلك 2000 فئة ومليون صورة

لقد أثار الإصدار المفتوح المصدر الأخير لـ Llama 3 حماس الجميع في دائرة الذكاء الاصطناعي، لكن دعمه للغة الصينية الصرفة ليس جيدًا جدًا، ولا يمكنه التبديل بمرونة إلى اللغة المقابلة للإجابة على الأسئلة الصينية.
هذا الأسبوع، أطلقت شركة hyper.ai البرنامج التعليمي للنشر والتفكير في Llama 3 Chinese Chat، النسخة الصينية من Llama 3.إنه يحل بشكل فعال مشكلة "الإجابة على الأسئلة الصينية باللغة الإنجليزية" ويجعل المحادثة أكثر طبيعية وسلاسة.لقد قام البرنامج التعليمي بنشر النموذج والبيئة. كل ما عليك فعله هو فتح عنوان API لتجربة الاستدلال!
لا أستطيع الانتظار، سأحاول ذلك:
نفس مجموعة بيانات التدريب الصينية:
من 27 مايو إلى 31 مايو، تحديثات الموقع الرسمي لـhyper.ai:
* مجموعات البيانات العامة عالية الجودة: 10
* دروس تعليمية مختارة عالية الجودة: 2
* اختيار المقالات المجتمعية: 4 مقالات
* إدخالات الموسوعة الشعبية: 5
* أفضل المؤتمرات مع الموعد النهائي في يونيو: 4
قم بزيارة الموقع الرسمي:هايبر.اي
مجموعات البيانات العامة المختارة
1. مجموعة بيانات النسخة الصينية من لعبة Llama 3
هذه المجموعة من البيانات عبارة عن مجموعة من مجموعات البيانات الصينية Llama 3. تمت معالجة البيانات بشكل موحد في تنسيق Firefly، ويمكن استخدامها مع أداة Firefly لتدريب نموذج Llama 3 الصيني بشكل مباشر.
الاستخدام المباشر:https://go.hyper.ai/uJlfk
2. مجموعة كبيرة من نصوص المحادثة الصينية النظيفة من LCCC
تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات. يمكن لمجموعة البيانات المفلترة تسهيل البحث في نمذجة المحادثة النصية القصيرة.
الاستخدام المباشر:https://go.hyper.ai/bDzEG
3. مجموعة بيانات التعرف على الطعام الكبيرة Food2K
Food2K عبارة عن مجموعة بيانات واسعة النطاق للتعرف على الأطعمة تحتوي على 2000 فئة من الأطعمة وأكثر من مليون صورة.
الاستخدام المباشر: https://go.hyper.ai/TpfUJ
4. مجموعة بيانات أزواج الصور والنصوص COYO-700M
يحتوي COYO-700M على 747 مليون زوج من الصور والنصوص والعديد من السمات الوصفية الأخرى، ويجمع العديد من النصوص البديلة المفيدة وأزواج الصور المرتبطة بها في مستندات HTML.
الاستخدام المباشر: https://go.hyper.ai/fWI1i
5. مجموعة بيانات الكشف عن الأهداف لجسر الصور الاستشعارية عن بُعد واسع النطاق GLH-Bridge
تحتوي مجموعة البيانات على 6000 صورة استشعار عن بعد عالية الدقة بتنسيق كبير، مع ما يقرب من 60000 حالة جسر عبر خلفيات مختلفة تم شرحها يدويًا. تنسيق الصورة هو 2048×2048-16384×16384 بكسل، ويحتوي على مجموعتين من تسميات اكتشاف الهدف: مربع الدوران والمربع الأفقي.
الاستخدام المباشر: https://go.hyper.ai/cHPeb
6. مجموعة بيانات الحوار متعدد الأدوار في المجال المفتوح متعدد الوسائط MMDialog
مجموعة البيانات عبارة عن مجموعة بيانات حوار مفتوحة النطاق ومتعددة الوسائط واسعة النطاق، تحتوي على 1.08 مليون جلسة حوار كاملة، وأكثر من 4000 موضوع حوار، و1.53 مليون صورة غير مكررة، بمتوسط 2.59 صورة لكل جلسة حوار.
الاستخدام المباشر: https://go.hyper.ai/iAbI2
7. مجموعة بيانات مرض السكري لدى الهنود البيما
تم الحصول على مجموعة البيانات في الأصل من المعهد الوطني للسكري وأمراض الجهاز الهضمي والكلى، والغرض منها هو التنبؤ تشخيصيًا بما إذا كان المريض مصابًا بالسكري بناءً على قياسات تشخيصية معينة مدرجة في مجموعة البيانات.
الاستخدام المباشر: https://go.hyper.ai/XqJXe
8. مجموعة بيانات LamaH-CE لعلم المياه والبيئة في أوروبا الوسطى
يحتوي LamaH-CE على سلاسل زمنية للجريان السطحي والأرصاد الجوية لـ 859 مستجمعات مياه تم قياسها بالإضافة إلى سمات مختلفة (مستجمعات المياه). تتوفر سلاسل زمنية هيدرولوجية مع دقة زمنية يومية وساعة وتتضمن علامات الجودة. تمتد جميع السلاسل الزمنية للأرصاد الجوية ومعظم تدفقات المياه لأكثر من 35 عامًا.
الاستخدام المباشر:https://go.hyper.ai/UPZvA
9. مجموعة بيانات CAMELS-GB لخصائص مستجمعات المياه في المملكة المتحدة والسلاسل الزمنية الهيدروميترية
توفر مجموعة البيانات هذه سلاسل زمنية هيدرولوجية وسمات المناظر الطبيعية لـ 671 حوضًا في المملكة المتحدة. يقوم بجمع تدفقات الأنهار وخصائص مستجمعات المياه وحدود مستجمعات المياه من أرشيف تدفق الأنهار الوطني في المملكة المتحدة ومجموعة جديدة من السلاسل الزمنية للأرصاد الجوية وخصائص مستجمعات المياه.
الاستخدام المباشر:https://go.hyper.ai/KA29l
10. مجموعة بيانات تحرير الصور المستندة إلى تعليمات HQ-Edit
يحتوي HQ-Edit على حوالي 200000 مثال تحرير، كل منها يحتوي على صورة إدخال، وصورة إخراج، وتعليمات تحرير مفصلة.
الاستخدام المباشر:https://go.hyper.ai/xjahh
لمزيد من مجموعات البيانات العامة، يرجى زيارة:
دروس تعليمية عامة مختارة
1. نشر Llama 3-Chinese-Chat-8b Demo بنقرة واحدة
النموذج المستخدم في هذا البرنامج التعليمي هو النسخة الصينية الأولى من Llama 3، وهو نموذج لغوي يحتوي على تعليمات دقيقة للمستخدمين الصينيين والإنجليز، ولديه قدرات متعددة مثل لعب الأدوار واستخدام الأدوات. كل ما عليك فعله هو استنساخ الحاوية وبدء تشغيلها، ثم نسخ عنوان API الناتج مباشرةً لتجربة الاستدلال على النموذج.
تشغيل عبر الإنترنت:https://go.hyper.ai/i3r7D
Latte هو نموذج مبتكر لتوليد الفيديو تم إتاحته مفتوح المصدر في نوفمبر 2023. وباعتباره أول نموذج فيديو Vincent DiT مفتوح المصدر في العالم، حقق Latte نتائج واعدة. يعد هذا البرنامج التعليمي عرضًا توضيحيًا لمشروع Latte.
تشغيل عبر الإنترنت: https://go.hyper.ai/LFfmt
معاينة البث المباشر لمحطة B
ستعقد شركة Apple مؤتمر WWDC 2024 في الفترة من 10 إلى 14 يونيو. من أجل مساعدة الجميع في الحصول على معلومات متعمقة حول Apple، ستواصل Super Neurological B Station Live Room بث مقاطع فيديو "Apple Special"، والتي تغطي: مؤتمرات WWDC على مر السنين، والمقابلات التنفيذية، والأفلام الوثائقية ذات الصلة وغيرها من المحتوى الغني.في ذلك الوقت، سوف يقوم تشاو شينجينج أيضًا ببث الحفل مباشرةً على حساب الفيديو وبيليبيلي، لذا احجز موعدًا الآن ولا تفوته~

الجدول التالي هو معاينة لمحتوى البث المباشر للأسبوع المقبل الذي اختاره المحرر↓↓↓
تاريخ | وقت | محتوى |
1 يونيو الاثنين | 18:00 | ستيف جوبز |
الثلاثاء 2 يونيو | 18:00 | ما الذي يجعل التفاحة تفاحة؟ |
الأربعاء 3 يونيو | 18:00 | مقابلة مع ستيف جوبز مقابل بيل جيتس |
الخميس 4 يونيو | 18:00 | الإصدار الأول للآيفون |
الجمعة 5 يونيو | 18:00 | تاريخ ستيف جوبز |
السبت 6 يونيو | 18:00 | كيف نجت شركة أبل من الإفلاس تقريبًا |
الأحد 7 يونيو | 18:00 | تاريخ تيم كوك |
تبث قناة Super Neuro TV بثًا مباشرًا على مدار 24 ساعة طوال أيام الأسبوع. انقر للحصول على "المخللات الإلكترونية" في مجال الذكاء الاصطناعي:
http://live.bilibili.com/26483094
مقالات المجتمع
في الأسبوع الماضي، أصدرت إدارة الأرصاد الجوية الصينية لأول مرة "كتالوج البيانات الخاص لتدريب نموذج الأرصاد الجوية الكبير للذكاء الاصطناعي"، والذي يجمع كميات هائلة من البيانات الجوية. أصبح الكتالوج الآن متاحًا للتنزيل على الموقع الرسمي لمكتب الأرصاد الجوية. بالإضافة إلى ذلك، من أجل مساعدة الجميع على فهم واستخدام موارد البيانات ذات الصلة، قامت HyperAI أيضًا بتجميع 10 مجموعات بيانات عالية الجودة للكوارث الجوية هذا الأسبوع لتعزيز تقدم الأبحاث ذات الصلة بشكل أفضل وفتح فصل جديد في البحث في مجال الأرصاد الجوية.
احصل على معلومات مفصلة:https://go.hyper.ai/kK87m
اقترح فريق أويانغ تشاوجون من معهد تشنغدو لمخاطر الجبال والبيئة، التابع للأكاديمية الصينية للعلوم، نموذجًا للتنبؤ بالجريان السطحي والفيضانات يعتمد على الذكاء الاصطناعي ED-DLSTM. من خلال ترميز الخصائص الثابتة لمستجمعات المياه والعوامل الجوية، واستخدام البيانات من أكثر من 2000 محطة هيدرولوجية حول العالم للتدريب على النماذج، حاول الباحثون حل مشكلة التنبؤ بالجريان السطحي في مستجمعات المياه مع أو بدون بيانات مراقبة في جميع أنحاء العالم. هذه المقالة عبارة عن تفسير مفصل ومشاركة للبحث.
شاهد التقرير الكامل:https://go.hyper.ai/eG6H5
3. واجهة الدماغ والحاسوب: إضافة للطب الحديث، ومقامرة للمرضى المصابين بالشلل
وقد أجرت جامعة تسينغهوا، وجامعة تشجيانغ، وجامعة ستانفورد، وجامعة براون، وجامعة جونز هوبكنز، وغيرها من الجامعات المحلية والأجنبية أبحاثًا ذات صلة بواجهات الدماغ والحاسوب. تبدأ هذه المقالة بالمفهوم وتقدم الأشكال الثلاثة الرئيسية لتطبيق واجهة الدماغ والحاسوب، وحالات بحثية محددة من جامعات مشهورة في الداخل والخارج، وأخلاقيات وسلامة واجهة الدماغ والحاسوب، وما إلى ذلك.
شاهد التقرير الكامل:https://go.hyper.ai/W3pPf
استخدم الفريق بقيادة جي جيان، الباحث في مرصد شنغهاي الفلكي التابع للأكاديمية الصينية للعلوم، أساليب التعلم العميق للبحث عن خطوط امتصاص الكربون المحايدة في البيانات الصادرة عن مسح سلون سكاي الثالث، وكشفوا عن لغز تكوين سحب الغاز الباردة في المجرات المبكرة واكتشاف 107 أمثلة على خطوط امتصاص الكربون المحايدة في الكون المبكر. هذه المقالة عبارة عن تفسير مفصل ومشاركة للبحث.
شاهد التقرير الكامل:https://go.hyper.ai/qirkz
مقالات موسوعية شعبية
1. العصر
2. مجال الإشعاع العصبي (NeRF)
3. قانون القياس
4. YOLOv10 الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي
5. شبكات كولموغوروف-أرنولد
فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:
https://hyper.ai/events
إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!
نراكم في الاسبوع القادم!
حول HyperAI
HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:
* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة
* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت
* تفسير أكثر من 100 حالة بحثية من AI4Science
* دعم البحث عن أكثر من 500 مصطلح ذي صلة
* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين
قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:
وأخيرًا، أوصي بـ "برنامج حوافز المبدعين". يمكن للأصدقاء المهتمين مسح رمز الاستجابة السريعة للمشاركة!