HyperAIHyperAI
منذ 2 أشهر

الفصل الموجه المُسرَّع بـ GPU لنسخ اجتماعات

Raj, Desh ; Povey, Daniel ; Khudanpur, Sanjeev
الفصل الموجه المُسرَّع بـ GPU لنسخ اجتماعات
الملخص

الفصل الموجه للمنبع (GSS) هو نوع من طرق استخراج المتحدث المستهدفالذي يعتمد على أنشطة المتحدث المحسوبة مسبقًا والفصل الأعمى للمنابع لتحسين الإشارة الصوتية المتداخلة في المرحلة الأولى. تم اقتراح هذا الأسلوب لأول مرة خلال تحدي CHiME-5 وأدى إلى تحسينات كبيرة مقارنة بأساس التوجيه والجمع الزمني. ومع ذلك، فإن الطريقة لم تشهد اعتمادًا واسعًا في مقاييس تسجيل الاجتماعات بشكل رئيسي بسبب وقت الحساب الطويل. في هذه الورقة، نصف تطبيقنا المحسن لـ GSS الذي يستفيد من قوة خطوط الأنابيب القائمة على الوحدات المعالجة الرسومية الحديثة (GPU)، بما في ذلك معالجة دفعات الترددات والمقاطع، لتوفير سرعة أكبر بمقدار 300 مرة مقارنة بالاستدلال القائم على وحدة المعالجة المركزية (CPU). يسمح لنا وقت الاستدلال المحسن بإجراء دراسات تقليص مفصلة على عدة معلمات من خوارزمية GSS -- مثل مدّة السياق، عدد القنوات، وصنف الضوضاء، وغيرها. نوفر خطوط أنابيب قابلة للتكرار من البداية إلى النهاية لتسجيل المتحدثين في مقاييس الاجتماعات الشهيرة: LibriCSS، AMI، وAliMeeting. كودنا ووصفاتنا متاحة علنًا: https://github.com/desh2608/gss.