برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

منذ شهر واحد

مع استمرار تطور الذكاء الاصطناعي التوليدي نحو مناهج متعددة الوسائط، يتحول نظام تحويل النص إلى كلام تدريجيًا من الاعتماد على الحوسبة السحابية إلى الاعتماد على الحوسبة المحلية. في السابق، كانت أنظمة تحويل النص إلى كلام عالية الجودة تعتمد غالبًا على نماذج ضخمة، واستدلال سحابي، وعمليات نشر معقدة. ورغم أن هذا وفر كلامًا طبيعيًا، إلا أنه أثار أيضًا مشكلات تتعلق بزمن الاستجابة والتكلفة والخصوصية. وبشكل خاص في سيناريوهات مثل الأجهزة المحمولة والمتصفحات وأجهزة الحوسبة الطرفية، أصبح تحقيق توليد كلام متعدد اللغات عالي الجودة وفي الوقت الفعلي مع استهلاك أقل للموارد محورًا جديدًا للصناعة.

في شهر مايو من هذا العام،قام فريق Supertone بفتح المصدر لبرنامج Supertonic-3، وهو نموذج خفيف الوزن متعدد اللغات لتحويل النص إلى كلام، والذي حصل بالفعل على 8.8 ألف نجمة على GitHub.يعتمد هذا النموذج على بيئة تشغيل ONNX ويدعم التشغيل المحلي بالكامل. ويمكنه إتمام عملية توليف الكلام في الوقت الفعلي في بيئة وحدة المعالجة المركزية دون الحاجة إلى استدعاء واجهات برمجة التطبيقات السحابية أو الاعتماد على وحدات معالجة الرسومات.

بالمقارنة مع العديد من أنظمة تحويل النص إلى كلام مفتوحة المصدر الحالية التي تحتوي على مليارات المعلمات، فإن إحدى السمات البارزة لـ Supertonic-3 هي أنها "صغيرة ولكنها كاملة".يحتوي النموذج بأكمله على حوالي 99 مليون معلمة فقط، ومع ذلك فهو يدعم 31 لغة، و10 نغمات محددة مسبقًا، ويتميز بقدرات مثل تقسيم النصوص الطويلة، والتحكم في فترات الصمت، وعلامات الرموز التعبيرية.على سبيل المثال، يمكن للمطورين... ، ، تضيف علامات مثل [قائمة العلامات] المزيد من المشاعر الطبيعية وفترات التوقف إلى الكلام المُنشأ دون الحاجة إلى مراجع صوتية إضافية أو هندسة توجيه معقدة.

يشير البيان الرسمي إلى أن سرعة الاستدلال كافية لتحويل صفحة ويب كاملة إلى ملف صوتي في غضون ثانية واحدة، مع إخراج ملف WAV عالي الجودة بتردد 44.1 كيلوهرتز وعمق 16 بت، يمكن تشغيله مباشرةً دون أي معالجة لاحقة. بالنسبة للمطورين الذين يسعون إلى بناء مساعدين محليين يعملون بالذكاء الاصطناعي، أو قارئات غير متصلة بالإنترنت، أو أنظمة بث صوتي، أو أدوات محتوى متعددة اللغات، فإن هذا النوع من الحلول "الخفيفة والمتعددة المنصات" يكتسب جاذبية متزايدة.

حديثاً،يحتوي قسم الدروس التعليمية في الموقع الرسمي لشركة HyperAI (hyper.ai) الآن على "Supertonic-3: نظام توليف الكلام المحلي متعدد اللغات خفيف الوزن"، وقد اكتمل إعداد البيئة.استمتع بتجربة نماذج تحويل النص إلى كلام عالية الجودة مجاناً باستخدام Free CPU.

تشغيل عبر الإنترنت:

https://go.hyper.ai/Mr31r

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "Supertonic-3: نظام توليف الكلام المحلي متعدد اللغات خفيف الوزن"، وانقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صورة "Free CPU" و"PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI مكافأة تسجيل للمستخدمين الجدد: مقابل $1 فقط، يمكنك الحصول على 20 ساعة من قوة الحوسبة RTX 5090 (بسعر أصلي $7)، والموارد صالحة إلى أجل غير مسمى.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ذات صلة الأخبار

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | فريق Zhang Yue بجامعة Westlake يفتح برنامج AutoFigure، وهو أداة قوية للرسم التوضيحي العلمي قادرة على فهم النصوص العلمية الطويلة بدقة.

تم إصدار Anima V1، وهو نموذج جديد تمامًا للصور الخام، ويركز على توليد الصور بأسلوب الأنمي؛ وتغطي مجموعة بيانات تقييم الذاكرة طويلة المدى متعددة الوسائط MemLens آليات الاستدلال من النص إلى الصورة عبر المحادثات وآليات تحديث المعرفة.

برنامج تعليمي عبر الإنترنت | تم تحقيق 41 ألف نجمة: فريق جامعة هونغ كونغ يفتح المصدر لروبوت نانوي مساعد للذكاء الاصطناعي فائق الخفة، وينفذ الوظائف الأساسية لـ OpenClaw في 4000 سطر من التعليمات البرمجية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

HyperAI

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

منذ شهر واحد

تشغيل عبر الإنترنت:

https://go.hyper.ai/Mr31r

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

3. حدد صورة "Free CPU" و"PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ذات صلة الأخبار

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | فريق Zhang Yue بجامعة Westlake يفتح برنامج AutoFigure، وهو أداة قوية للرسم التوضيحي العلمي قادرة على فهم النصوص العلمية الطويلة بدقة.

تم إصدار Anima V1، وهو نموذج جديد تمامًا للصور الخام، ويركز على توليد الصور بأسلوب الأنمي؛ وتغطي مجموعة بيانات تقييم الذاكرة طويلة المدى متعددة الوسائط MemLens آليات الاستدلال من النص إلى الصورة عبر المحادثات وآليات تحديث المعرفة.

برنامج تعليمي عبر الإنترنت | تم تحقيق 41 ألف نجمة: فريق جامعة هونغ كونغ يفتح المصدر لروبوت نانوي مساعد للذكاء الاصطناعي فائق الخفة، وينفذ الوظائف الأساسية لـ OpenClaw في 4000 سطر من التعليمات البرمجية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

Command Palette

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

تشغيل تجريبي

عرض التأثير

Command Palette

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

Command Palette

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي