ChunkFormer: Conformer مع تقطيع مُقنَّع للترجمة الصوتية الطويلة

يُعدّ تطبيق نماذج التعرف على الكلام (ASR) على نطاق صناعي تحديًا كبيرًا في إدارة موارد الأجهزة، خاصةً في مهام التحويل الصوتي الطويلة التي قد تمتد لساعات. وعلى الرغم من قدرات النماذج الكبيرة من نوع Conformer، فإنها محدودة بمعالجة 15 دقيقة فقط من الصوت على وحدة معالجة رسومية (GPU) بسعة 80 جيجابايت. وتفاقم هذه التحديات بسبب تباين أطوال المدخلات، حيث يؤدي التجميع القياسي (batching) إلى تضخيم التعبئة (padding) بشكل مفرط، مما يزيد من استهلاك الموارد ووقت التنفيذ. ولحل هذه المشكلة، نقدّم نموذج ChunkFormer، وهو نموذج فعّال لـ ASR يستخدم معالجة بالقطع (chunk-wise processing) مع سياق نسبي يميني، مما يمكّن من التحويل الصوتي الطويل على وحدات معالجة رسومية ذات ذاكرة منخفضة. يُمكن لـ ChunkFormer معالجة ما يصل إلى 16 ساعة من الصوت على وحدة معالجة رسومية بسعة 80 جيجابايت، أي بطول 1.5 مرة أطول من النموذج الأحدث حاليًا (FastConformer)، مع تعزيز الأداء في مهام التحويل الطويلة بنسبة تقليل مطلقة في معدل خطأ الكلمات (Word Error Rate) تصل إلى 7.7%، مع الحفاظ على الدقة في المهام القصيرة مقارنةً بنموذج Conformer. وبفضل إزالة الحاجة إلى التعبئة في التجميع القياسي، يقلل تقنية التجميع المُقنّع (masked batching) في ChunkFormer من وقت التنفيذ واستهلاك الذاكرة بأكثر من 3 أضعاف في العمليات الجماعية، مما يُقلل بشكل كبير من التكاليف في مجموعة واسعة من أنظمة ASR، خاصةً فيما يتعلق بموارد وحدات المعالجة الرسومية المستخدمة في النماذج التي تعمل في التطبيقات الواقعية.