HyperAIHyperAI
منذ 11 أيام

EVA-GAN: توليد صوتيات متنوعة محسّنة من خلال شبكات توليدية تنافسية قابلة للتوسع

Shijia Liao, Shiyi Lan, Arun George Zachariah
EVA-GAN: توليد صوتيات متنوعة محسّنة من خلال شبكات توليدية تنافسية قابلة للتوسع
الملخص

يُمثل ظهور النماذج الكبيرة عصرًا جديدًا في التعلم الآلي، حيث تتفوق بشكل كبير على النماذج الأصغر من خلال الاستفادة من مجموعات بيانات ضخمة لالتقاط الأنماط المعقدة وتركيبها. وعلى الرغم من هذه التطورات، ما زال الاستكشاف في مجال التوسع، خاصة في مجال توليد الصوت، محدودًا، حيث لم تتجاوز الجهود السابقة نطاق الترددات عالية الدقة (HiFi) بتردد 44.1 كيلوهرتز، وتُعاني من انقطاعات طيفية وضبابية في النطاق الترددي العالي، بالإضافة إلى ضعف المقاومة تجاه البيانات الخارجة عن النطاق المستهدف. وتُحد هذه القيود من قابلية تطبيق النماذج على حالات استخدام متنوعة، بما في ذلك توليد الموسيقى والغناء. ويقدم عملنا نموذج EVA-GAN (EVA-GAN: توليد صوتيات متنوعة محسّنة من خلال شبكات توليدية مُضاعفة) الذي يحقق تحسينات كبيرة مقارنة بأفضل النماذج السابقة من حيث إعادة بناء الطيف وتحسين الأداء في النطاق الترددي العالي، وكذلك المقاومة أمام البيانات الخارجة عن النطاق المستهدف. ويتيح هذا النموذج توليد صوتيات عالية الجودة (HiFi) من خلال استخدام مجموعة بيانات ضخمة تبلغ 36,000 ساعة من الصوت بتردد 44.1 كيلوهرتز، ووحدة واعية بالسياق، وأداة قياس فنية تُستخدم بمشاركة الإنسان (Human-In-The-Loop)، كما تم توسيع النموذج ليصل إلى حوالي 200 مليون معلمة. يمكن مشاهدة عروض توضيحية لعملنا عبر الرابط التالي: https://double-blind-eva-gan.cc.

EVA-GAN: توليد صوتيات متنوعة محسّنة من خلال شبكات توليدية تنافسية قابلة للتوسع | أحدث الأوراق البحثية | HyperAI