Vocos: تضييق الفجوة بين المُنَشِّطات العصبية الزمنية والمتناهية التحويلية لتركيب الصوت عالي الجودة

تُحفَّز التطورات الحديثة في التوليد العصبي للصوت بشكل رئيسي بواسطة الشبكات العصبية التوليدية المتنافسة (GANs) التي تعمل في المجال الزمني. وعلى الرغم من فعاليتها، فإن هذا النهج يتجاهل الانحياز التمثيلي المقدم من تمثيلات الزمن-التردد، مما يؤدي إلى عمليات تضخيم مكررة ومتطلبة للحسابات بشكل كبير. يُعد التمثيل الزمني-التردد القائم على تحويل فورييه بديلاً جذاباً، إذ يتوافق بدقة أكبر مع الإدراك السمعي البشري، ويستفيد من خوارزميات سريعة مثبتة مسبقاً لحسابه. ومع ذلك، ظلت إعادة بناء الطيف المركب مباشرةً مشكلة تاريخية، وذلك أساساً بسبب صعوبات استعادة الطور. تسعى هذه الدراسة إلى سد هذه الفجوة من خلال عرض نموذج جديد يُسمى "فوكوس" (Vocos)، الذي يُولِّد بشكل مباشر معاملات الطيف فورييه. لا يقتصر فوكوس على تحقيق جودة صوتية توازي أحدث المستويات، كما أظهرت تقييماتنا، بل يُحسّن بشكل كبير الكفاءة الحسابية، حيث يحقق زيادة بمقدار مرتبة واحدة في السرعة مقارنةً بالأساليب السائدة في التوليد العصبي للصوت في المجال الزمني. تم إتاحة الشفرة المصدرية وأوزان النموذج مفتوحة المصدر على الرابط التالي: https://github.com/gemelo-ai/vocos.