HyperAIHyperAI
منذ 15 أيام

Diffsound: نموذج تمايز منفصل لتحويل النص إلى صوت

Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, Dong Yu
Diffsound: نموذج تمايز منفصل لتحويل النص إلى صوت
الملخص

تُعدّ توليد تأثيرات صوتية تُرضي البشر موضوعًا مهمًا. ومع ذلك، هناك عدد قليل من الدراسات في هذا المجال المتعلقة بتوليد الصوت. في هذه الدراسة، نستكشف توليد الصوت بشروط نصية (text prompt) ونُقدّم إطارًا جديدًا لتوليد الصوت من النص، يتكون من مشفر نصي (text encoder)، ونظام تشفير متجهات متعددة (Vector Quantized Variational Autoencoder (VQ-VAE))، ومشفر عكسي (decoder)، ومحوّل صوتي (vocoder). يُستخدم الإطار أولاً المشفر العكسي لتحويل الميزات النصية المستخرجة من المشفر النصي إلى مُخطط ميل-спектروغرام (mel-spectrogram) بمساعدة VQ-VAE، ثم يُستخدم المحول الصوتي لتحويل المخطط المُولّد إلى موجة صوتية. وجدنا أن المشفر العكسي يؤثر بشكل كبير على أداء التوليد، لذا ركّزنا في هذه الدراسة على تصميم مشفر عكسي فعّال. بدأنا بمشفر عكسي تلقائي (autoregressive decoder) الذي أُثبت كأفضل أسلوب في الدراسات السابقة المتعلقة بتوليد الصوت. لكن المشفر التلقائي يُقدّر دائمًا رموز مخطط ميل-спектروغرام واحدة تلو الأخرى بالترتيب، ما يؤدي إلى مشكلة التحيّز أحادي الاتجاه وتكاثر الأخطاء. علاوةً على ذلك، مع استخدام المشفر التلقائي، يزداد وقت توليد الصوت بشكل خطي مع طول الصوت. لتجاوز العيوب الناتجة عن المشفرات التلقائية، نقترح مشفرًا غير تلقائي مبنيًّا على نموذج التمايز المنفصل (discrete diffusion model)، ونسمّيه Diffsound. وبشكل خاص، يُقدّر Diffsound جميع رموز مخطط ميل-спектروغرام في خطوة واحدة، ثم يُعدّل هذه الرموز المُقدّرة في الخطوة التالية، مما يُنتج أفضل النتائج بعد عدة خطوات. تُظهر تجاربنا أن Diffsound المقترح لا يُنتج نتائج توليد صوتي من نص أفضل مقارنة بالمشفر التلقائي فحسب، بل يمتلك أيضًا سرعة توليد أسرع، مثلاً: درجة رضا المستخدم (MOS): 3.56 مقابل 2.786، وسرعة التوليد أسرع بخمس مرات من المشفر التلقائي.

Diffsound: نموذج تمايز منفصل لتحويل النص إلى صوت | أحدث الأوراق البحثية | HyperAI