HyperAIHyperAI

Command Palette

Search for a command to run...

الفصل الموجه المُسرَّع بـ GPU لنسخ اجتماعات

Desh Raj Daniel Povey Sanjeev Khudanpur

الملخص

الفصل الموجه للمنبع (GSS) هو نوع من طرق استخراج المتحدث المستهدفالذي يعتمد على أنشطة المتحدث المحسوبة مسبقًا والفصل الأعمى للمنابع لتحسين الإشارة الصوتية المتداخلة في المرحلة الأولى. تم اقتراح هذا الأسلوب لأول مرة خلال تحدي CHiME-5 وأدى إلى تحسينات كبيرة مقارنة بأساس التوجيه والجمع الزمني. ومع ذلك، فإن الطريقة لم تشهد اعتمادًا واسعًا في مقاييس تسجيل الاجتماعات بشكل رئيسي بسبب وقت الحساب الطويل. في هذه الورقة، نصف تطبيقنا المحسن لـ GSS الذي يستفيد من قوة خطوط الأنابيب القائمة على الوحدات المعالجة الرسومية الحديثة (GPU)، بما في ذلك معالجة دفعات الترددات والمقاطع، لتوفير سرعة أكبر بمقدار 300 مرة مقارنة بالاستدلال القائم على وحدة المعالجة المركزية (CPU). يسمح لنا وقت الاستدلال المحسن بإجراء دراسات تقليص مفصلة على عدة معلمات من خوارزمية GSS -- مثل مدّة السياق، عدد القنوات، وصنف الضوضاء، وغيرها. نوفر خطوط أنابيب قابلة للتكرار من البداية إلى النهاية لتسجيل المتحدثين في مقاييس الاجتماعات الشهيرة: LibriCSS، AMI، وAliMeeting. كودنا ووصفاتنا متاحة علنًا: https://github.com/desh2608/gss.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp