HyperAIHyperAI

Command Palette

Search for a command to run...

ChunkFormer: Conformer مع تقطيع مُقنَّع للترجمة الصوتية الطويلة

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

الملخص

يُعدّ تطبيق نماذج التعرف على الكلام (ASR) على نطاق صناعي تحديًا كبيرًا في إدارة موارد الأجهزة، خاصةً في مهام التحويل الصوتي الطويلة التي قد تمتد لساعات. وعلى الرغم من قدرات النماذج الكبيرة من نوع Conformer، فإنها محدودة بمعالجة 15 دقيقة فقط من الصوت على وحدة معالجة رسومية (GPU) بسعة 80 جيجابايت. وتفاقم هذه التحديات بسبب تباين أطوال المدخلات، حيث يؤدي التجميع القياسي (batching) إلى تضخيم التعبئة (padding) بشكل مفرط، مما يزيد من استهلاك الموارد ووقت التنفيذ. ولحل هذه المشكلة، نقدّم نموذج ChunkFormer، وهو نموذج فعّال لـ ASR يستخدم معالجة بالقطع (chunk-wise processing) مع سياق نسبي يميني، مما يمكّن من التحويل الصوتي الطويل على وحدات معالجة رسومية ذات ذاكرة منخفضة. يُمكن لـ ChunkFormer معالجة ما يصل إلى 16 ساعة من الصوت على وحدة معالجة رسومية بسعة 80 جيجابايت، أي بطول 1.5 مرة أطول من النموذج الأحدث حاليًا (FastConformer)، مع تعزيز الأداء في مهام التحويل الطويلة بنسبة تقليل مطلقة في معدل خطأ الكلمات (Word Error Rate) تصل إلى 7.7%، مع الحفاظ على الدقة في المهام القصيرة مقارنةً بنموذج Conformer. وبفضل إزالة الحاجة إلى التعبئة في التجميع القياسي، يقلل تقنية التجميع المُقنّع (masked batching) في ChunkFormer من وقت التنفيذ واستهلاك الذاكرة بأكثر من 3 أضعاف في العمليات الجماعية، مما يُقلل بشكل كبير من التكاليف في مجموعة واسعة من أنظمة ASR، خاصةً فيما يتعلق بموارد وحدات المعالجة الرسومية المستخدمة في النماذج التي تعمل في التطبيقات الواقعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp