منذ 9 أيام
pyannote.audio: كتل بناء عصبية لتمييز المتكلمين
Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov, Marvin Lavechin, Diego Fustes, Hadrien Titeux, Wassim Bouaziz, Marie-Philippe Gill

الملخص
نقدّم "pyannote.audio"، أداة مفتوحة المصدر مكتوبة بلغة بايثون للتمييز بين المتكلمين. تعتمد على إطار العمل التعلّم الآلي PyTorch، وتقدّم مجموعة من الوحدات العصبية القابلة للتدريب من البداية إلى النهاية، التي يمكن دمجها وتحسينها معًا لبناء سلاسل عمل لتمييز المتكلمين. كما تأتي "pyannote.audio" مزودة بنماذج مُدرّبة مسبقًا تغطي طيفًا واسعًا من المجالات، مثل كشف النشاط الصوتي، وكشف تغيّر المتكلم، وكشف الكلام المُتداخل، وتمثيل المتكلمين، وتحقيق أداءً من الدرجة الأولى في معظم هذه المهام.