HyperAI

تغلب على مشكلة إخراج مقالات طويلة تتكون من عشرات الآلاف من الكلمات! جامعة تسينغهوا تفتح مصادر مجموعة البيانات LongWriter-6k؛ 7 مؤتمرات CCF Class A على وشك الانتهاء

特色图像

على الرغم من أن النموذج الكبير الحالي للسياق الطويل يمكنه التعامل مع إدخال نص ضخم، إلا أنه غير قادر على إنشاء محتوى طويل بسبب عدم وجود أمثلة إخراج طويلة. لحل هذه المشكلة،قام فريق بحثي من جامعة تسينغهوا ببناء مجموعة بيانات LongWriter-6k، والتي يمكنها توسيع حجم نافذة الإخراج القصوى للنماذج الكبيرة إلى أكثر من 10000 كلمة!

وبمساعدة النموذج الذي تم تدريبه بواسطة LongWriter-6k، لا يمكنه فقط إنشاء روايات مثيرة ذات صعود وهبوط في الحبكة وطول فائق في إنشاء الرواية، مما يسمح للقراء بالانغماس في عالم أدبي عظيم؛ وفي البحث الأكاديمي، يمكنه أيضًا إنشاء تقارير بحثية مفصلة ومراجعات للأوراق البحثية، مما يوفر مواد مرجعية غنية للباحثين العلميين.

أطلق الموقع الرسمي لـ hyper.ai الآن مجموعة بيانات إخراج السياق الطويل "LongWriter-6k"، والتي تدعم أيضًا الاستخدام عبر الإنترنت.قم بالتمرير لأسفل للحصول على الرابط~

من 19 أغسطس إلى 23 أغسطس، تحديثات الموقع الرسمي لـ hyper.ai:

* مجموعات البيانات العامة عالية الجودة: 10

* دروس تعليمية مختارة عالية الجودة: 2

* اختيار المقالات المجتمعية: مقالتان

* إدخالات الموسوعة الشعبية: 5

* أفضل المؤتمرات مع الموعد النهائي في سبتمبر: 7

قم بزيارة الموقع الرسمي:هايبر.اي

مجموعات البيانات العامة المختارة

1. LongWriter-مجموعة بيانات مخرجات السياق الطويلة 6k

تحتوي مجموعة البيانات على 6 آلاف بيانات SFT بطول إخراج يتراوح من 2 ألف إلى 32 ألف كلمة (بما في ذلك اللغة الإنجليزية والصينية)، والتي يمكنها دعم تدريب LLM وتوسيع حجم نافذة الإخراج القصوى إلى أكثر من 10000 كلمة.

الاستخدام المباشر:https://go.hyper.ai/77byR

2. مجموعة بيانات تطور نص أوراكل-بون من EVOBC

تحتوي مجموعة البيانات على نصوص قديمة من ست فترات تاريخية جمعها الباحثون بشكل منهجي من وثائق ومواقع إلكترونية موثوقة، وتتكون من 229,170 صورة تمثل 13,714 فئة مختلفة من الشخصيات.

الاستخدام المباشر:https://go.hyper.ai/oe5fU

3. مجموعة بيانات التعرف على العظام من Oracle HUST-OBS

تحتوي مجموعة البيانات على أكثر من 140,000 صورة من 3 مصادر مختلفة، بما في ذلك الكتب ومواقع الويب وقواعد البيانات الموجودة، مما يجعلها واحدة من أكبر مجموعات بيانات التعريف وفك التشفير الخاصة بـ OBS حتى الآن.

الاستخدام المباشر:https://go.hyper.ai/bXxx1

4. مجموعة بيانات الضبط الدقيق للتعليمات المُنظَّفة باستخدام Alpaca

مجموعة بيانات Alpaca-Cleaned هي نسخة منقحة من مجموعة بيانات Alpaca الأصلية التي أصدرتها جامعة ستانفورد في عام 2024. تعمل مجموعة البيانات هذه على إصلاح بعض المشكلات في Alpaca الأصلية، مثل الإجابات الوهمية والتعليمات المدمجة والمخرجات الفارغة وحقول الإدخال غير المتسقة، وبالتالي تحسين جودة البيانات واتساقها.

الاستخدام المباشر:https://go.hyper.ai/yNlAa

5. مجموعة بيانات المحادثة الطبية لروبوت الدردشة الطبية Al Medical

هذه مجموعة بيانات تجريبية مصممة لتشغيل روبوتات الدردشة الطبية، والتي تحتوي على 256,916 محادثة بين المرضى والأطباء.

الاستخدام المباشر:https://go.hyper.ai/kaGzv

6. مجموعة بيانات صور Openstory++ واسعة النطاق

تم تصميم Openstory++ لحل المشكلة المتمثلة في أن نماذج إنشاء الصور الحالية تواجه صعوبة في الحفاظ على اتساق المثيلات في سياقات النص الطويلة. إنه يجمع بين التعليقات التوضيحية على مستوى المثيل للصور والنصوص، مما يوفر موردًا غنيًا يمكّنه من إنشاء صور ذات تناسق كبير في سياق النصوص الطويلة.

الاستخدام المباشر:https://go.hyper.ai/no3E7

7. مجموعة بيانات طبية متعددة الوسائط واسعة النطاق MedTrinity-25M

يحتوي MedTrinity-25M على أكثر من 25 مليون صورة طبية تغطي 10 طرق تصوير ويتم شرح أكثر من 65 مرضًا. لا تحتوي مجموعة البيانات هذه على تعليقات توضيحية عالمية ومحلية غنية فحسب، بل تدمج أيضًا تعليقات توضيحية للمعلومات متعددة المستويات في وسائط متعددة (مثل التصوير المقطعي المحوسب، والتصوير بالرنين المغناطيسي، والأشعة السينية، وما إلى ذلك). ستوفر مجموعة البيانات هذه دعمًا كبيرًا للمهام متعددة الوسائط مثل معالجة الصور الطبية وإنشاء التقارير والتصنيف والتجزئة، مع تعزيز التدريب المسبق لنماذج الذكاء الاصطناعي القائمة على الطب.

الاستخدام المباشر:https://go.hyper.ai/JCSJP

8. مجموعة بيانات صور بطاقات التاروت Raider Waite Tarot لعام 1920

تحتوي مجموعة البيانات هذه على صور وأوصاف نصية ذات صلة بـ 78 بطاقة من مجموعة Rider-Waite Tarot الأصلية، مما يوفر للباحثين والفنانين موردًا غنيًا لاستكشاف فن ورمزية بطاقات التارو، ويمكن استخدامها لتدريب النماذج لتوليد صور على غرار التارو.

الاستخدام المباشر:https://go.hyper.ai/8bd2R

9. قاعدة بيانات تقييم جودة الصور واسعة النطاق لبرنامج استكشاف واترلو
تحتوي قاعدة البيانات على 4,744 صورة طبيعية أصلية و94,880 صورة مشوهة تم إنشاؤها من هذه الصور الأصلية، والتي يمكن استخدامها لاختبار قدرة التعميم لنماذج تقييم جودة الصور.
الاستخدام المباشر:https://go.hyper.ai/m5mhN

10. مجموعة بيانات معيارية لتقييم توليد الكود المُتحقق منه باستخدام SWE-bench

المعيار هو نسخة محسنة (مجموعة فرعية) من مجموعة اختبارات البرمجيات البرمجية الحالية، والتي تم تصميمها لتقييم قدرة نماذج الذكاء الاصطناعي على حل مشكلات البرامج في العالم الحقيقي بشكل أكثر موثوقية.

الاستخدام المباشر:https://go.hyper.ai/oxOBY

لمزيد من مجموعات البيانات العامة، يرجى زيارة:

https://hyper.ai/datasets

دروس تعليمية عامة مختارة

1. عرض توضيحي لسير عمل ComfyUl AuraFlow Wenshengtu

يحقق هذا النموذج نتائج متطورة على GenEval، مع كفاءة معالجة أعلى وعرض تفصيلي أفضل لمهام الرسم البياني النصي. يستخدم هذا البرنامج التعليمي ComfyUI لنشر نموذج الرسم البياني AuraFlow. تم بناء النموذج وتكوينات البيئة ذات الصلة ويمكن استنساخها للاستدلال بنقرة واحدة.

الاستخدام المباشر:https://go.hyper.ai/KpI4B

2. أداة التعرف على الكلام عبر الإنترنت Whisper Web

يستخدم Whisper تقنية التعلم الآلي للتعرف على الكلام ويمكن تسريعه باستخدام WebGPU. إنه يدعم تحميل الملفات الصوتية عبر الإنترنت/المحلية والتسجيل الفوري بأكثر من 100 لغة. يمكن تصدير النص المعترف به بتنسيقات ملفات TXT وJSON، ويمكن أيضًا ترجمته مباشرة إلى اللغة الإنجليزية. يعتمد هذا البرنامج التعليمي على مشروع مفتوح المصدر Whisper Web على GitHub ويتم تشغيله مباشرة في المتصفح باستخدام Whisper.

الاستخدام المباشر:https://go.hyper.ai/N3iwm

مقالات المجتمع

1. مكافحة مقاومة العلاج الكيميائي وعودة الورم! يستخدم فريق البحث بجامعة شاندونغ الذكاء الاصطناعي لبناء دفاع قوي ضد الخلايا الجذعية لسرطان الثدي

في الآونة الأخيرة، نجح كل من Lv Haiquan وSun Rong وZhang Kai من جامعة Shandong وMei Qi من جامعة Shanxi الطبية، بالتعاون مع فرق البحث من Helix Matrix، في تحقيق تقدم كبير. وباستخدام تكنولوجيا التعلم الآلي وبناءً على تحليل mRNA، نجح الباحثون في تطوير طريقة جديدة، وهي توقيع BCSC، لتقييم خصائص الخلايا الجذعية السرطانية في عينات من مرضى سرطان الثدي الأولي. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.

شاهد التقرير الكامل:https://go.hyper.ai/SPAjK

2. د. بينجكسين تشو من جامعة شنغهاي جياو تونغ: ترسيخًا لتحدي ندرة البيانات البيولوجية، تعمل الشبكات العصبية الرسومية على إعادة تشكيل فهم البروتين وتوليده

في مدرسة الذكاء الاصطناعي للهندسة الحيوية الصيفية بجامعة شنغهاي جياو تونغ، شارك الدكتور تشو بينجكسين من جامعة شنغهاي جياو تونغ مع الجميع تعريف ومزايا وتطبيقات الشبكات العصبية الرسومية المتطورة في مجالات مثل التنبؤ بالبروتين وتوليده تحت عنوان "الشبكات العصبية الرسومية وتمثيل بنية البروتين". هذه المقالة عبارة عن نص من أهم النقاط التي شاركها الدكتور تشو بينجكسين.

شاهد التقرير الكامل:https://go.hyper.ai/GjXi5

3. تم اختياره للمؤتمر الرئيسي ACL2024 | InstructProtein: مواءمة لغة البروتين مع اللغة البشرية باستخدام تعليمات المعرفة

اقترح فريق بحثي من جامعة تشجيانغ برنامج InstructProtein، الذي يستخدم تعليمات المعرفة لمواءمة لغة البروتين مع اللغة البشرية، مما يدل على القدرة على دمج التسلسلات البيولوجية في نماذج لغوية كبيرة. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.

شاهد التقرير الكامل:https://go.hyper.ai/GjXi5

مقالات موسوعية شعبية

1. اختبار t المقترن

2. دمج الفرز المتبادل RRF

3. جبهة باريتو

4. جهاز التشفير التلقائي المتغير VAE

5. زيادة البيانات

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://go.hyper.ai/wiki

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1300 مجموعة بيانات عامة

* يتضمن أكثر من 400 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 100 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai