HyperAIHyperAI
منذ 2 أشهر

Conv-TasNet: تجاوز التحجب المثالي في الزمن والتكرار للتفريق بين الكلام

Yi Luo; Nima Mesgarani
Conv-TasNet: تجاوز التحجب المثالي في الزمن والتكرار للتفريق بين الكلام
الملخص

شهدت طرق فصل الكلام الأحادية القناة والمستقلة عن المتحدث تقدماً كبيراً في الآونة الأخيرة. ومع ذلك، لا تزال دقة هذه الطرق وتأخيرها وتكلفة الحسابات فيها غير كافية. لقد صيغت معظم الطرق السابقة مشكلة الفصل من خلال التمثيل الزمني-الترددي للإشارة المختلطة، وهو ما يحتوي على عدة عيوب، منها فصل الطور والمقدار للإشارة، وعدم مثالية التمثيل الزمني-التردي لفصل الكلام، بالإضافة إلى التأخير الطويل في حساب الطيف الزمني.لحل هذه العيوب، نقترح شبكة فصل الصوت في المجال الزمني بالكامل باستخدام التحويلات الشعاعية (Conv-TasNet)، وهي إطار عميق للتعلم يهدف إلى فصل الكلام في المجال الزمني بشكل مباشر. يستخدم Conv-TasNet مشفّراً خطيًا لإنشاء تمثيل للموجة الصوتية مُحسّن لفصل المتحدثين الفرديين. يتم تحقيق فصل المتحدثين من خلال تطبيق مجموعة من وظائف الوزن (الأقنعة) على إخراج المشفّر. ثم يتم عكس التمثيلات المشفرة المعدلة مرة أخرى إلى الموجات الصوتية باستخدام مفكك شفرة خطي. يتم العثور على الأقنعة باستخدام شبكة تحويلية زمنية تتكون من كتل تحويلية توسعية ذات بُعد واحد متراكمة (TCN)، مما يسمح للشبكة بنمذجة الاعتمادات طويلة الأمد للإشارة الصوتية مع الحفاظ على حجم نموذج صغير.أظهر النظام المقترح Conv-TasNet أداءً أفضل بكثير من طرق التمثيل الزمني-الترددي السابقة في فصل مزيجات الكلام التي تحتوي على متحدثين اثنين أو ثلاثة. بالإضافة إلى ذلك، يتفوق Conv-TasNet على العديد من أقنعة المقدار الزمني-الترددي المثالية في فصل كلام متحدثين اثنين، كما تم تقييمه بواسطة مقاييس التشوه الموضوعية وتقييم الجودة الذاتي من قبل المستمعين البشريين. وأخيرًا، فإن Conv-TasNet يتمتع بحجم نموذج أصغر بكثير وتأخير أدنى، مما يجعله حلًا مناسبًا لكلٍ من التطبيقات المتزامنة وغير المتزامنة لفصل الكلام.

Conv-TasNet: تجاوز التحجب المثالي في الزمن والتكرار للتفريق بين الكلام | أحدث الأوراق البحثية | HyperAI