CAT: أداة تحليل صوتي بالاعتماد على CTC-CRF تربط بين النهج الهجين والنهج المتكامل تمامًا من أجل الكفاءة في استخدام البيانات والتأخير المنخفض

في هذه الورقة، نقدّم أداة مفتوحة المصدر جديدة لتمييز الكلام، تُسمى CAT (أداة تمييز الكلام القائمة على CTC-CRF). ترث CAT كفاءة استخدام البيانات في النهج الهجين، وتبسيط النهج المتكامل من البداية إلى النهاية (E2E)، وتوفّر تنفيذًا شاملاً لنموذج CTC-CRF، بالإضافة إلى سكربتات تدريب واختبار كاملة لعدة معايير باللغة الإنجليزية والصينية. تُظهر التجارب أن CAT تحقق نتائج من الطراز الرائد، مُعادلة نماذج الهجين المُحسَّنة في Kaldi، ولكن بخط أنابيب تدريبmuch أبسط. مقارنةً بالنماذج E2E الحالية غير المُقسَّمة، تُظهر CAT أداءً أفضل على مجموعات بيانات محدودة الحجم، مما يُبرز كفاءتها في استخدام البيانات. علاوةً على ذلك، نقترح طريقة جديدة تُسمى "النسيان الناعم السياقي"، التي تمكّن CAT من تنفيذ تمييز الكلام التدفقي (streaming ASR) دون التضحية بالدقة. نأمل أن تُثير CAT، وبخاصة الإطار القائم على CTC-CRF والبرمجيات المرتبطة به، اهتمامًا واسعًا في المجتمع العلمي، ويمكن استكشافها وتحسينها بشكل أكبر في المستقبل.