دورة تعليمية عبر الإنترنت | أحدث التقنيات في مجال تحويل النص إلى كلام عبر الأجهزة! جهاز NeuTTS-Air يُحقق استنساخًا صوتيًا في 3 ثوانٍ استنادًا إلى نموذج 0.5B

منذ 8 أشهر

لطالما واجهت نماذج تحويل النص إلى كلام (TTS) التقليدية عالية الجودة تحديات جوهرية عديدة: فهي غالبًا ما تتطلب موارد حوسبة وخدمات سحابية عالية، مما يؤدي إلى تكاليف باهظة يصعب على الشركات الصغيرة والمطورين الأفراد تحملها؛ علاوة على ذلك، تتطلب معظم هذه النماذج عشرات الدقائق، بل وحتى ساعات، من البيانات الصوتية للتدريب. هذه المتطلبات المتعلقة بالنشر والتشغيل لا تزيد من صعوبة استخدام هذه النماذج فحسب، بل تحد أيضًا من تطبيقها في الحالات التي تتطلب الخصوصية.

NeuTTS-Air، أحدث نموذج لتوليف الكلام الشامل مفتوح المصدر، يقدم حلاً جديدًا تمامًا للتحديات المتمثلة في استخدام TTS.باعتباره أول نموذج لغة تحويل النص إلى كلام محلي في العالم يدعم توليف الكلام فائق الواقعية واستنساخ الكلام في الوقت الفعلي،لا يُظهر NeuTTS-Air، الذي يعتمد على برنامج ترميز الصوت 0.5B Qwen LLM وNeuCodec، قدرات ممتازة للتعلم من خلال عدد قليل من اللقطات في النشر الحافة واستنساخ الصوت في الوقت الفعلي فحسب، بل يمكنه أيضًا التعميم على سيناريوهات جديدة مثل الوكلاء المضمنين ونقل الأسلوب، ويدعم استنساخ الصوت لمدة 3 ثوانٍ، ويولد محتوى حوار طبيعي.

يظهر التقييم التجريبي أنيحقق NeuTTS Air أداءً متطورًا (SOTA) بين النماذج مفتوحة المصدر.خاصةً في التوليف فائق الواقعية ومعايير الاستدلال في الوقت الفعلي. يُقدّم التدريب اللاحق دعمًا لـ GGML/ONNX وآلية وضع علامات مائية، مما يُتيح الريادة في مجال البرمجيات مفتوحة المصدر في تقييمات تحويل النص إلى كلام من جانب الحافة وتحسين استهلاك الطاقة، ويُضاهي النماذج مغلقة المصدر في بعض السيناريوهات. والأهم من ذلك، هذا النموذج خفيف الوزن.يمكن إجراء الاستدلال على وحدة المعالجة المركزية.مناسب للأجهزة مثل الهواتف المحمولة وأجهزة الكمبيوتر المحمولة وRaspberry Pi.

رابط البرنامج التعليمي لـ "نشر نموذج استنساخ الصوت NeuTTS-Air على وحدة المعالجة المركزية":

https://go.hyper.ai/IP2a2

يأتي إصدار NeuTTS-Air في وقتٍ يتزايد فيه الطلب في هذا المجال على أنظمة تحويل نص إلى كلام (TTS) فعّالة، منخفضة الكمون، وواقعية للغاية، لا سيما في مجالات النشر على الأجهزة واستنساخ الصوت في الوقت الفعلي. يُسهّل هذا النظام على المطورين نشر أنظمة تحويل نص إلى كلام عالية الجودة على الأجهزة المحمولة والأجهزة الطرفية، مما يجعل الأصوات "الغريبة" حكرًا على نماذج السحابة الكبيرة.

"NeuTTS-Air: نموذج استنساخ الكلام خفيف الوزن وفعال" متاح الآن على موقع HyperAI (hyper.ai) في قسم "البرامج التعليمية".تعال واستمتع بالنشر بنقرة واحدة!

رابط البرنامج التعليمي:

https://go.hyper.ai/EJvsH

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرامج التعليمية"، أو انقر فوق "عرض المزيد من البرامج التعليمية"، وحدد "NeuTTS-Air: نموذج استنساخ الكلام خفيف الوزن وفعال"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صورتي "NVIDIA GeForce RTX 5090" و"PyTorch"، ثم اختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

٤. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي ٣ دقائق. عندما تتغير الحالة إلى "قيد التشغيل"، انقر على السهم بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي. يُرجى العلم أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام عنوان واجهة برمجة التطبيقات.

عرض التأثير

بعد الدخول إلى صفحة تشغيل العرض التوضيحي، قم بتحميل الصوت المرجعي في "الصوت المرجعي"، وأدخل النص المرجعي في مربع النص "النص المرجعي"، وأدخل محتوى النص الصوتي المطلوب بعد الاستنساخ في "النص المراد إنشاؤه"، وانقر فوق "إرسال" وانتظر لحظة للحصول على الصوت المستنسخ.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/EJvsH

ذات صلة الأخبار

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

دورة تعليمية عبر الإنترنت | فريق جامعة هونغ كونغ للعلوم والتكنولوجيا يُطلق أول إطار عمل مفتوح المصدر لعمق الفيديو الحتمي، محققًا أحدث التقنيات بدون عينات.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

HyperAI

دورة تعليمية عبر الإنترنت | أحدث التقنيات في مجال تحويل النص إلى كلام عبر الأجهزة! جهاز NeuTTS-Air يُحقق استنساخًا صوتيًا في 3 ثوانٍ استنادًا إلى نموذج 0.5B

منذ 8 أشهر

معلومة

رابط البرنامج التعليمي لـ "نشر نموذج استنساخ الصوت NeuTTS-Air على وحدة المعالجة المركزية":

https://go.hyper.ai/IP2a2

رابط البرنامج التعليمي:

https://go.hyper.ai/EJvsH

تشغيل تجريبي

عرض التأثير

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/EJvsH

ذات صلة الأخبار

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

دورة تعليمية عبر الإنترنت | فريق جامعة هونغ كونغ للعلوم والتكنولوجيا يُطلق أول إطار عمل مفتوح المصدر لعمق الفيديو الحتمي، محققًا أحدث التقنيات بدون عينات.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

Command Palette

دورة تعليمية عبر الإنترنت | أحدث التقنيات في مجال تحويل النص إلى كلام عبر الأجهزة! جهاز NeuTTS-Air يُحقق استنساخًا صوتيًا في 3 ثوانٍ استنادًا إلى نموذج 0.5B

تشغيل تجريبي

عرض التأثير

Command Palette

دورة تعليمية عبر الإنترنت | أحدث التقنيات في مجال تحويل النص إلى كلام عبر الأجهزة! جهاز NeuTTS-Air يُحقق استنساخًا صوتيًا في 3 ثوانٍ استنادًا إلى نموذج 0.5B

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دورة تعليمية عبر الإنترنت | فريق جامعة هونغ كونغ للعلوم والتكنولوجيا يُطلق أول إطار عمل مفتوح المصدر لعمق الفيديو الحتمي، محققًا أحدث التقنيات بدون عينات.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

Command Palette

دورة تعليمية عبر الإنترنت | أحدث التقنيات في مجال تحويل النص إلى كلام عبر الأجهزة! جهاز NeuTTS-Air يُحقق استنساخًا صوتيًا في 3 ثوانٍ استنادًا إلى نموذج 0.5B

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دورة تعليمية عبر الإنترنت | فريق جامعة هونغ كونغ للعلوم والتكنولوجيا يُطلق أول إطار عمل مفتوح المصدر لعمق الفيديو الحتمي، محققًا أحدث التقنيات بدون عينات.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دورة تعليمية عبر الإنترنت | فريق جامعة هونغ كونغ للعلوم والتكنولوجيا يُطلق أول إطار عمل مفتوح المصدر لعمق الفيديو الحتمي، محققًا أحدث التقنيات بدون عينات.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دورة تعليمية عبر الإنترنت | فريق جامعة هونغ كونغ للعلوم والتكنولوجيا يُطلق أول إطار عمل مفتوح المصدر لعمق الفيديو الحتمي، محققًا أحدث التقنيات بدون عينات.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.