HyperAIHyperAI

Command Palette

Search for a command to run...

استنساخ الصوت في 5 ثوانٍ فقط! يُمكّن Chatterbox-Turbo من توليد الصوت بدون فقدان الجودة مع معدل أخذ عينات عالٍ.

Featured Image

أصدرت شركة Resemble AI مؤخرًا Chatterbox-Turbo، وهو نموذج عالي الأداء لتحويل النص إلى كلام (TTS)، وهو أول نموذج مفتوح المصدر للتحكم في مستوى العاطفة.تم بناء النموذج على بنية مبسطة مكونة من 350 مليون معلمة، ويعتمد على بنية توليدية متقدمة غير ذاتية التراجع، مما يقلل بشكل كبير من الطلب على موارد الحوسبة وذاكرة وحدة معالجة الرسومات مع توليد كلام عالي الجودة، مما يحقق تحسينًا في الأداء مقارنة بالنماذج السابقة.

بالإضافة إلى ذلك، قام فريق التطوير بتحسين وحدة فك تشفير تمثيل الكلام، والتي شكلت عنق الزجاجة في النموذج الأصلي، باستخدام تقنية تقطير المعرفة.تم بنجاح تقليص عملية توليد الكلام من عشر خطوات إلى خطوة واحدة.مع تحسين سرعة الإنتاج بشكل كبير، فإنه يضمن أن يظل خرج الصوت يتمتع بدقة عالية.

يجمع برنامج Chatterbox-Turbo بين وحدة معالجة دلالية من نوع T3 (محول النص إلى رمز) ووحدة فك تشفير مطابقة حركة البيانات S3Gen، وهي وحدة مُحسَّنة للمحادثات الفورية. وتشمل مزاياه التقنية الرئيسية ما يلي:

* تحسين كفاءة الاستدلال:تعمل نسخة Turbo، المصممة خصيصًا للتفاعل في الوقت الحقيقي، على تحسين كفاءة الإخراج بشكل كبير دون التضحية بمعدل أخذ العينات العالي.

* استنساخ عالي الدقة لبعض المقاطع الصوتية:باستخدام 5 إلى 10 ثوانٍ فقط من الصوت المرجعي، يمكنك إعادة إنتاج رنين الصوت ونبرته وإيقاعه بدقة.

* دعم علامات اللغة الثانوية الأصلية:يمكن للتحكم المتكامل القائم على العلامات أن يولد بسلاسة إشارات غير لفظية مثل الضحك أو السعال أو التنهد، مما يعزز بشكل كبير طبيعية التفاعل بين الإنسان والحاسوب.

* الامتثال لأنظمة الأنظمة المدمجة:يستخدم النظام تقنية بيرث للعلامات المائية الصوتية الضمنية، مما يوفر تتبعًا قويًا للمصدر وحماية لحقوق الطبع والنشر دون التأثير على جودة الصوت.

لقد ساهمت قدرات Chatterbox-Turbo القوية في الوقت الفعلي في دفع الابتكار عبر مجالات متعددة: في خدمة العملاء الذكية والبشر الرقميين، فهي تتيح استجابات على مستوى أجزاء من الثانية؛ وفي الألعاب، فهي توفر أصواتًا ديناميكية للشخصيات غير القابلة للعب وتفاعلات عاطفية لتطوير الألعاب؛ وفي البودكاست والكتب الصوتية، فهي تقدم حلولًا فعالة من حيث التكلفة لإنتاج قراءات عالية الجودة؛ وفي التعليم متعدد اللغات، يمكنها محاكاة المحادثات الطبيعية ذات اللهجات المختلفة.

يعرض موقع HyperAI الآن "Chatterbox-Turbo High-Performance Conversational Speech Synthesis"، لذا جربه!

الاستخدام عبر الإنترنت:https://go.hyper.ai/GTYF4https://go.hyper.ai/GTYF4

نظرة سريعة على تحديثات الموقع الرسمي لشركة hyper.ai من 22 ديسمبر إلى 26 ديسمبر:

* مجموعة مختارة من الدروس التعليمية عالية الجودة: 4

* إدخالات الموسوعة الشعبية: 5

أهم المؤتمرات التي تنتهي مواعيدها في يناير: 11

قم بزيارة الموقع الرسمي:هايبر.اي

دروس تعليمية عامة مختارة

1. تشاتربوكس-تيربو: توليف كلام محادثة عالي الأداء

Chatterbox-Turbo، الذي أطلقته شركة Resemble AI، هو إطار عمل عالي الأداء لتحويل النص إلى كلام (TTS) مصمم لتزويد وكلاء الذكاء الاصطناعي من الجيل التالي بتفاعل صوتي فائق السرعة ومعبر ودقيق عاطفياً. من خلال استخدام بنية توليدية متقدمة غير ذاتية التراجع، يحقق النموذج دقة صوتية استثنائية ودقة عالية في النبرة مع الحفاظ على أدنى حد من زمن استجابة الاستدلال. يكمن ابتكاره التقني الأساسي في دمج مطابقة التدفق مع بنية أساسية عالية الكفاءة للمحولات، مما يعالج بفعالية مشكلة السرعة التي تُصادف عادةً في نماذج تحويل النص إلى كلام التقليدية عند توليد تسلسلات طويلة.

تشغيل عبر الإنترنت:https://go.hyper.ai/GTYF4

2. تقوم واجهة Qwen Image Layered Interface بتقسيم الطبقات المتعددة تلقائيًا.

Qwen Image Layered هو نموذج مفتوح المصدر لفهم الصور وتحليلها، تم إصداره من قبل فريق Alibaba Qwen. يركز هذا النموذج على تحليل الصور الطبيعية المعقدة تلقائيًا إلى طبقات صور متعددة متماسكة دلاليًا ومتوافقة مكانيًا. بالاعتماد على صورة إدخال واحدة، يستخدم النموذج آليات نشر متعددة المراحل ونمذجة هيكلية لإنشاء مجموعة من الطبقات المرئية ذات تسلسل هرمي دلالي واضح. وهو مناسب لتحليل بنية الصور، والتحرير الطبقي، وفهم المحتوى، والتطبيقات متعددة الوسائط.

تشغيل عبر الإنترنت:https://go.hyper.ai/RRZ0a

3. واجهة LightOnOCR-1B: محرك OCR عالي السرعة للمستندات المعقدة.

يُعدّ LightOnOCR-1B-1025، الذي أصدرته شركة LightOn، نموذجًا متكاملًا للتعرف الضوئي على الأحرف (OCR) للغة المرئية، مزودًا بمليار مُعامل، ومُصمم خصيصًا لاستخراج النصوص من المستندات الممسوحة ضوئيًا، وصفحات التصميم المعقدة، وملفات PDF عالية الدقة. يجمع هذا النموذج بين مُشفّر Vision Transformer القائم على Pixtral ومُفكّك نصوص Qwen3 خفيف الوزن، وكلاهما مُحسّن للغاية لتحليل المستندات. يُجري النموذج استخراجًا دقيقًا للنصوص من الصفحات عالية الدقة مع مراعاة تصميم الصفحة، ويتفوق في استخراج النصوص من الجداول، والإيصالات، والرموز الرياضية، والتصميمات متعددة الأعمدة.

تشغيل عبر الإنترنت:https://go.hyper.ai/JKERT

4. واجهة تحرير صور LongCat: نظام تحرير صور ثنائي اللغة يعتمد على النصوص

LongCat-Image-Edit هو نموذج مفتوح المصدر لتحرير الصور يعتمد على التعليمات، وقد أصدره فريق Meituan LongCat. يستند هذا النموذج إلى إطار عمل LongCat-Image، وهو مناسب للاستخدام في بيئات ثنائية اللغة (الصينية والإنجليزية)، ويركز على التعديل البصري الدقيق والمتحكم فيه للصور الموجودة من خلال تعليمات اللغة الطبيعية.

قم بتشغيلها عبر الإنترنت: https://go.hyper.ai/2OKU3

مقالات موسوعية شعبية

1. القاعدة النووية

2. الذاكرة طويلة المدى ثنائية الاتجاه (Bi-LSTM)

3. الحقيقة على أرض الواقع

4. الملاحة المجسدة

5. معدل الإطارات في الثانية (FPS)

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://go.hyper.ai/wiki

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1800 مجموعة بيانات عامة

* يتضمن أكثر من 600 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 200 حالة بحثية من AI4Science

* يدعم البحث عن أكثر من 600 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين