HyperAI

حقق خلطًا واستنساخًا متعدد الطبقات في 3 ثوانٍ! البرنامج التعليمي F5/E2 TTS متاح عبر الإنترنت؛ تم إصدار مجموعة بيانات الحوار النفسي PsyDTCorpus 5k، والتي تحاكي بدقة أسلوب لغة المستشارين النفسيين.

特色图像

في ظل التطور السريع لاستنساخ الصوت، أصبح الذكاء الاصطناعي قادراً على محاكاة تأثيرات صوتية واقعية بشكل متزايد، ولكن لا تزال هناك العديد من التحديات في التعلم بدون عينة والتحكم في المشاعر المتعددة.

في وقت سابق من هذا العام، نفذت E2 TTS طريقة مبسطة لتوليد النص إلى كلام، حيث تقوم ببساطة بتبطين النص المدخل إلى نفس طول الكلام المدخل باستخدام علامات التبطين، ثم تقوم بإزالة الضوضاء لتوليد الكلام. في الآونة الأخيرة، أشارت F5 TTS إلى هذه الطريقة وحسّنت بشكل أكبر أداء النموذج بناءً على طريقة التوليد غير الانحداري لمطابقة التدفق، بحيث لا تدعم فقط التوليف متعدد اللغات، بل يمكنها أيضًا ضبط العواطف وسرعة التحدث وفقًا لمحتوى النص، مما يجعل توليف الكلام النصي الطويل أكثر دقة وسلاسة.

من أجل تسهيل تجربة الجميع لتأثيرات توليد الصوت الخاصة بـ F5 TTS و E2 TTS،أطلق الموقع الرسمي لـ hyper.ai البرنامج التعليمي لتكامل F5/E2 TTS، والذي يمكن استنساخه بنقرة واحدة~

تشغيل عبر الإنترنت:https://go.hyper.ai/SZxqv

من 4 نوفمبر إلى 8 نوفمبر، تحديثات الموقع الرسمي لـhyper.ai:

* مجموعات البيانات العامة عالية الجودة: 10

* مجموعة مختارة من الدروس التعليمية عالية الجودة: 3

* اختيار المقالات المجتمعية: 4 مقالات

* إدخالات الموسوعة الشعبية: 5

* أفضل المؤتمرات مع الموعد النهائي في نوفمبر: 6

قم بزيارة الموقع الرسمي: hyper.ai

مجموعات البيانات العامة المختارة

1. مجموعة بيانات نوع الشعر مجموعة بيانات نوع الشعر

مجموعة بيانات نوع الشعر عبارة عن مجموعة بيانات صور لتصنيف تسريحات الشعر المختلفة. يحتوي على صور عالية الجودة لـ 4 أنواع من تسريحات الشعر: المستقيم، والمموج، والمجعد، والضفائر، بإجمالي 1,992 صورة. تساعد مجموعة البيانات هذه في تدريب نماذج التعلم الآلي لتحديد أنواع الشعر وتصنيفها.

الاستخدام المباشر:https://go.hyper.ai/aXYcj

أمثلة على صور مجموعات البيانات

2. مجموعة بيانات إزالة السحابة العامة AllClear

تُعد مجموعة بيانات AllClear حاليًا أكبر مجموعة بيانات لإزالة السحابة العامة، حيث تحتوي على 23742 منطقة اهتمام موزعة عالميًا (ROIs) تغطي أنماط استخدام الأراضي المتنوعة وإجمالي 4 ملايين صورة. ويتناول هذا البحث الافتقار إلى المعايير المرجعية وبيانات التدريب المتنوعة في مجال أبحاث إزالة السحابة.

الاستخدام المباشر:https://go.hyper.ai/e2BYC

مخطط توزيع البيانات

3. مجموعة بيانات محرف العربية المكتوبة بخط اليد

مجموعة بيانات المَحَرَف هي مجموعة بيانات تعلُّم آلي تركز على التعرف على الأحرف العربية المكتوبة بخط اليد. تحتوي مجموعة البيانات هذه على أكثر من 1.6 ألف صورة لصفحات تاريخية مكتوبة بخط اليد قام بنسخها خبراء عرب. يتم إرفاق كل صورة مستند بإحداثيات المضلع المكانية لأسطر النص الخاصة بها ومعلومات حول عناصر الصفحة الأساسية.

الاستخدام المباشر:https://go.hyper.ai/NN2UR

مثال على مجموعة بيانات محرّف

4. مجموعة بيانات التحليل الطيفي الكيميائي متعدد الوسائط

تحتوي مجموعة البيانات على بيانات محاكاة 1H-NMR و13C-NMR وHSQC-NMR والأشعة تحت الحمراء ولطيف الكتلة (الأنماط الأيونية الموجبة والسالبة) لـ 790.000 جزيء مستخرج من التفاعلات الكيميائية في بيانات براءات الاختراع. يمكنه دمج المعلومات من الوسائط الطيفية المتعددة ومحاكاة الأساليب المستخدمة من قبل الخبراء البشريين لتحليل الهياكل الجزيئية، وبالتالي لديه القدرة على أتمتة التحليل البنيوي وتبسيط عملية الاكتشاف الجزيئي من التركيب إلى تحديد البنية.

الاستخدام المباشر:https://go.hyper.ai/Z7zlr

نظرة عامة على البيانات

5. مجموعة بيانات معيارية لتقييم متعدد الوسائط الطبي GMAI-MMBench

GMAI-MMBench هو معيار تقييم متعدد الوسائط مصمم لتطوير مجال الذكاء الاصطناعي الطبي العام. يحتوي على 284 مجموعة بيانات من مصادر مختلفة، تتضمن 38 نموذجًا للصور الطبية و18 مهمة ذات صلة سريرية، تغطي 18 قسمًا طبيًا مختلفًا، ويتم تقييمها على 4 مستويات إدراكية مختلفة، وبالتالي النظر في أداء LVLMs من أبعاد متعددة.

الاستخدام المباشر:https://go.hyper.ai/FL799

مخطط تخطيطي لهيكل مجموعة البيانات

٦. مجموعة بيانات التوائم الرقمية للمستشارين النفسيين في PsyDTCorpus

الهدف الأساسي لمجموعة بيانات PsyDTCorpus هو محاكاة أسلوب اللغة وتقنيات الاستشارة للمستشارين النفسيين المحددين لدعم تطوير وتدريب نموذج التوأم الرقمي للمستشار النفسي SoulChat2.0. تحتوي مجموعة البيانات هذه على 5 آلاف من بيانات محادثات الصحة العقلية عالية الجودة مع أسلوب لغة المستشار وطرق تطبيق التقنيات العلاجية.

الاستخدام المباشر:https://go.hyper.ai/hGi4O

توزيع موضوعات البيانات

7. مجموعة بيانات صوت الغناء GTSinger

تُعد مجموعة البيانات هذه مجموعة بيانات غناء كبيرة مفتوحة المصدر وعالية الجودة تحتوي على 80.59 ساعة من الغناء المسجل في استوديوهات احترافية. يتم غناء هذه الأغاني من قبل 20 مغني محترف بـ 9 لغات مختلفة، بما في ذلك الصينية والإنجليزية واليابانية والكورية وغيرها، مما يوفر للباحثين مكتبة موارد ذات نغمات وأنماط غنية للغاية.

الاستخدام المباشر:https://go.hyper.ai/wBcBz

8. مجموعة بيانات محاكاة المحفز OC22

هذه المجموعة من البيانات عبارة عن مجموعة بيانات لمحاكاة المحفز، وهي مجموعة بيانات Open Catalyst 2022 (OC22). تعمل مجموعة البيانات هذه على توسيع واستكمال مجموعة بيانات OC20، وتحتوي على هياكل محفز أكثر تعقيدًا وأنواع تفاعل جديدة، وتوفر بيانات أكثر ثراءً لتدريب واختبار نماذج الذكاء الاصطناعي.

الاستخدام المباشر:https://go.hyper.ai/M8Cpn

9. مجموعة بيانات المواد الكمومية مفتوحة المصدر OQMD

تحتوي مجموعة بيانات OQMD على الخصائص الديناميكية الحرارية والبنيوية لأكثر من 1.22 مليون مادة تم حسابها باستخدام نظرية الكثافة الوظيفية (DFT). البيانات الموجودة في مجموعة البيانات مستمدة من قاعدة بيانات البنية البلورية غير العضوية (ICSD)، بما في ذلك حسابات الطاقة الكلية DFT لنحو 300000 مركب وتعديلات على البنية البلورية الشائعة.

الاستخدام المباشر:https://go.hyper.ai/dGOKs

10. مشروع المواد - قاعدة بيانات المواد عبر الإنترنت

تتضمن البيانات الموجودة في قاعدة بيانات مشروع المواد البنية البلورية وخصائص الطاقة، بالإضافة إلى معلومات مفصلة مثل البنية الإلكترونية والخصائص الديناميكية الحرارية. تهدف مجموعة البيانات هذه إلى استخدام حسابات المبادئ الأولية عالية الإنتاجية لتوفير بيانات أداء شاملة ومعلومات هيكلية ونتائج محاكاة حسابية لأكثر من مليون مادة غير عضوية، وبالتالي تسريع عملية اكتشاف وابتكار مواد جديدة.

الاستخدام المباشر:https://go.hyper.ai/tGIVs

لمزيد من مجموعات البيانات العامة، يرجى زيارة:

https://hyper.ai/datasets

دروس تعليمية عامة مختارة

1. AnyText إنشاء وتحرير النصوص المرئية متعددة اللغات

AnyText هو نموذج لإنشاء وتحرير النصوص المرئية متعدد اللغات. يمكنه دعم إنشاء النص بعدة لغات مثل الصينية والإنجليزية واليابانية والكورية وما إلى ذلك، كما يدعم أيضًا تحرير محتوى النص في الصور المدخلة. توفر تقنية إنشاء النصوص المشاركة في هذا النموذج إمكانيات لتطبيقات AIGC الجديدة مثل ملصقات التجارة الإلكترونية وتصميم الشعار والكتابة الإبداعية على الجدران والرموز التعبيرية.

انقر على الرابط أدناه، واتبع خطوات البرنامج التعليمي لاستنساخ الحاوية وبدء تشغيلها، وبعد ذلك يمكنك استخدام إبداعك لتصميم الصور.

تشغيل عبر الإنترنت:https://go.hyper.ai/uMcNa

مثال على واجهة النموذج

2. تستنسخ تقنية F5/E2 TTS أي صوت في 3 ثوانٍ فقط

يتضمن هذا البرنامج التعليمي استخدامًا تجريبيًا لنماذج F5 TTS وE2 TTS. يمكن لبرنامج F5 TTS توليد كلام طبيعي وسلس ومطابق للنص الأصلي بسرعة من خلال التعلم بدون أي إشراف إضافي. يمكن لـ E2 TTS إنشاء تسلسل الكلام بالكامل مرة واحدة، مما يحسن سرعة التوليد بشكل كبير مع الحفاظ على جودة إخراج الكلام.

يمكن لهذا المشروع إنشاء واجهة تفاعلية أمامية من خلال واجهة Gradio. لقد تم نشر النماذج والتبعيات ذات الصلة. يمكنك تجربة استنساخ الصوت عن طريق البدء بنقرة واحدة.

تشغيل عبر الإنترنت:https://go.hyper.ai/SZxqv

مثال على واجهة البرنامج التعليمي

3. عرض توضيحي لإنشاء صور كبيرة باستخدام Stable-Diffusion-3.5

نموذج Stable Diffusion 3.5 Large هو نموذج من منشئ الانتشار المتعدد الوسائط (MMDiT) لتحويل النص إلى صورة ويتميز بتحسينات كبيرة في جودة الصورة والطباعة وفهم الاستجابة المعقدة وكفاءة الموارد. يوفر حجمها الهائل الذي يصل إلى 8 مليار معلمة إمكانيات إنشاء صور بمستوى احترافي، وهي مناسبة بشكل خاص لاحتياجات إنشاء صور عالية الدقة.

لقد نشر هذا البرنامج التعليمي البيئة، ويمكنك إنشاء صور عالية الدقة مباشرة وفقًا لتعليمات البرنامج التعليمي.

تشغيل عبر الإنترنت:https://go.hyper.ai/w5k5V

مثال على صورة كبيرة تم إنشاؤها بواسطة نموذج الانتشار المستقر 3.5

💡لقد قمنا أيضًا بتأسيس مجموعة تبادل تعليمية حول الانتشار المستقر. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة والتعليق على [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق ~

مقالات المجتمع

1. يغطي تقريبا الجدول الدوري للعناصر! تُصدر Meta مجموعة بيانات OMat24 مفتوحة المصدر، تحتوي على 110 مليون نتيجة حسابية DFT

أصدرت Meta مؤخرًا مجموعة البيانات مفتوحة المصدر واسعة النطاق Open Materials 2024 ومجموعة من النماذج المدربة مسبقًا الداعمة. من بينها، تحتوي مجموعة البيانات OMat24 على أكثر من 110 مليون نتيجة لحساب نظرية الكثافة الوظيفية التي تركز على التنوع البنيوي والتكويني. أصبحت مجموعة البيانات متاحة الآن على الموقع الرسمي لـ HyperAI. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.

شاهد التقرير الكامل:https://go.hyper.ai/3wP7R

2. مراجعة النشاط 丨جامعة شنغهاي جياو تونغ / جامعة تشجيانغ / جامعة تسينغهوا / أوبن بايز العديد من الخبراء، يغطون الرعاية الطبية / المعلومات الجغرافية / الأنظمة المعقدة الحضرية / النماذج الجديدة للبحث العلمي

خلال مؤتمر COSCon'24، عقدت HyperAI، كمجتمع مشارك في الإنتاج، منتدى مفتوح المصدر للذكاء الاصطناعي في اتجاه الذكاء الاصطناعي للعلوم. شارك خبراء وعلماء من جامعة شنغهاي جياو تونغ، وجامعة تشجيانغ، وجامعة تسينغهوا، والحوسبة البايزية OpenBayes، بأفكارهم حول جوانب متعددة، بما في ذلك الذكاء الاصطناعي الطبي، والذكاء الاصطناعي للمعلومات الجغرافية، ومنصة الحوسبة الذكية السحابية للبحث العلمي، وأنظمة المجمعات الحضرية التي تعتمد على الذكاء الاصطناعي. تستعرض هذه المقالة أبرز أحداث المنتدى. انقر هنا للحصول على التغطية التفصيلية.

عرض ملخص الحدث:https://go.hyper.ai/s2RQU

3. حصلت على استثمار ثانٍ من NVIDIA! أكملت شركة Terray للأدوية العاملة بالذكاء الاصطناعي تمويلًا بقيمة 120 مليون دولار أمريكي لبناء أكبر مجموعة بيانات كيميائية في العالم

أتمت شركة الأدوية المتخصصة بالذكاء الاصطناعي Terray Therapeutics جولة تمويلية من الفئة B بقيمة 120 مليون دولار بقيادة ذراع رأس المال الاستثماري لشركة Nvidia، NVentures، والمستثمر الجديد Bedford Ridge Capital. وهذا أيضًا هو الاستثمار الثاني لشركة Nvidia في Terray. كما قامت الشركة ببناء أكبر مجموعة بيانات كيميائية في العالم ودمج الذكاء الاصطناعي مع التجارب الرطبة لتشكيل حلقة مغلقة على جانب البيانات. انقر هنا للحصول على شرح مفصل.

شاهد التقرير الكامل:https://go.hyper.ai/AWojF

4. المساعدة في الفحص الأولي للاكتئاب! قام فريق جامعة Shanghai Jiao Tong ببناء عيادة نفسية للعميل، وقدمت الورقة الأولى العرض التوضيحي عبر الإنترنت لمشاركة النقاط التقنية البارزة.

في الحلقة الرابعة من سلسلة البث المباشر "تعرف على AI4S"، يتحدث لان كونياو، وهو طالب دكتوراه. من مختبر الذكاء اللغوي متعدد الوسائط بجامعة شنغهاي جياو تونغ، ألقى خطابًا بعنوان "منصة تشخيص واستشارات الصحة العقلية القائمة على وكلاء النموذج الكبار". وقد قدم شرحًا تفصيليًا لخطوات الاستخدام، وأهم النقاط الفنية، والخطط المستقبلية للعيادة النفسية. تتضمن هذه المقالة نصًا لأهم النقاط الواردة في الخطاب، بما في ذلك عرضًا للعيادة النفسية الذكية. انقر هنا لمشاهدته بسرعة.

شاهد التقرير الكامل:https://go.hyper.ai/CHhKC

مقالات موسوعية شعبية

1. نموذج المحول

2. جهاز التشفير التلقائي المتغير VAE

3. الشبكات العصبية الاصطناعية

4. جبهة باريتو

5. فهم اللغة متعدد المهام على نطاق واسع (MMLU)

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://go.hyper.ai/wiki

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1300 مجموعة بيانات عامة

* يتضمن أكثر من 400 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 100 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai

وأخيرًا، أوصي ببرنامج "حوافز المبدعين". يمكن للأصدقاء المهتمين مسح رمز الاستجابة السريعة للمشاركة!