نماذج صوتية خفيفة الوزن بقدرات توليد صوتي تلقائي ونسخ صوتي بدون تدريب مسبق
يُعدّ نموذج "سوبرو" (Sopro)، الذي طوّره الباحث سامويل فيتورينو، مشروعًا جانبيًا مبتكرًا في مجال تحويل النص إلى كلام، يتميز بحجمه الصغير وفعاليته العالية رغم الموارد المحدودة. ويأتي اسم النموذج مستمدًا من الكلمة البرتغالية "سوبرو"، التي تعني "النفس" أو "التنفس"، مما يعكس طبيعته الخفيفة والمتواضعة في الاستهلاك. يُبنى سوبرو على هيكل يعتمد على عمليات تقوية متعددة (dilated convolutions)، بأسلوب مشابه لنموذج ويفينت، إلى جانب طبقات انتباه خفيفة الوزن، بدلًا من الهياكل التقليدية المعتمدة على الترانسفورمر. هذه الصيغة المبتكرة تجعل النموذج سريعًا وسهل التكامل، رغم أنه لا يزال يتخلف عن أفضل النماذج الحالية (SOTA) في جودة الصوت أو الدقة الصوتية في معظم الحالات. ومع ذلك، فإن النموذج تم تدريبه باستخدام بطاقة رسوميات واحدة فقط (L40S)، مما يعكس كفاءته العالية في الاستخدام مع موارد محدودة. من أبرز ميزاته، إمكانية نسخ الصوت بشكل صفر (zero-shot voice cloning)، أي تقليد صوت شخص ما دون الحاجة إلى تدريب مسبق عليه، بالإضافة إلى دعم التوليد غير التدريجي والتدريجي عبر الإنترنت، مما يجعله مناسبًا للتطبيقات التي تتطلب استجابة فورية. كما يوفر نموذجًا تفاعليًا عبر واجهة ويب يمكن تشغيله عبر Docker، حيث يمكن الوصول إليه عبر المتصفح عبر الرابط localhost:8000. بالرغم من النجاح النسبي، يعترف المطور بوجود قيود ناتجة عن القيود المادية في المشروع. فبسبب تكلفة تخزين الصوت الخام، تم التدريب على بيانات مُحلّلة مسبقًا باستخدام رمزية عصبية (neural codec)، ما أدى إلى فقدان بعض التفاصيل الدقيقة في الصوت. ويشير إلى أن استخدام الصوت الأصلي في التدريب قد يُحسّن جودة التماثل الصوتي، خاصة في نقل الخصائص الفريدة لكل صوت. كما يشير إلى أن هناك مجالًا لتحسينات مستقبلية، مثل تحسين كفاءة التوليد عبر تخزين حالة التحويل (caching conv states)، وتمديد فترة التوليد التي تقتصر حاليًا على نحو 32 ثانية (400 إطار). ويحذر من أن التوليد لأكثر من هذا الوقت قد يؤدي إلى توليدات غير منطقية (hallucinations). تم استخدام الذكاء الاصطناعي في مراحل متعددة من المشروع، من تطوير الواجهة التفاعلية، إلى تنظيم الكود المُختلط، وإجراء تجارب تحليلية (ablations)، ودعم التفكير الإبداعي. ويدعو المطور المهتمين إلى دعمه عبر منصة "اشترِ لي قهوة" لتمكينه من شراء موارد حوسبة أكثر، مما يتيح له تطوير النموذج ودعم لغات إضافية. يُعد سوبرو مثالًا ملهمًا على إمكانية إنجاز مشاريع مبتكرة في مجال الذكاء الاصطناعي باستخدام موارد محدودة، ويُظهر كيف يمكن أن تُسهم الابتكارات البسيطة في تطوير تقنيات مفيدة وقابلة للتوسع.
