HyperAIHyperAI

Command Palette

Search for a command to run...

أبرز الاتجاهات في مُدرج ASR المفتوح: تطورات في الدعم متعدد اللغات والتحويل الطويل الأجل

مع ازدياد عدد نماذج التحويل الصوتي إلى نص (ASR) بشكل متسارع، أصبح اختيار النموذج المناسب تحديًا حقيقيًا، خاصة مع وجود أكثر من 27 ألف نموذج مدرج على منصة Hugging Face، و150 نموذجًا من نوع Audio-Text-to-Text. في 21 نوفمبر 2025، أصبحت لائحة التقييم المفتوحة (Open ASR Leaderboard) مرجعًا معتمدًا لتقييم النماذج المفتوحة والمغلقة من حيث الدقة والكفاءة، مع إضافة مسارات جديدة تركز على الترجمة متعددة اللغات والنصوص الطويلة مثل الاجتماعات والبودكاست. تشير النتائج إلى أن النماذج التي تجمع بين معالجات Conformer في الجزء المشفر (encoder) ومحولات كبيرة قائمة على نماذج لغوية كبيرة (LLM) في الجزء المُفكِّر (decoder) تُقدِّم أفضل الأداء في دقة الترجمة الإنجليزية، حيث تحقق أدنى معدلات أخطاء الكلمات (WER). من أبرز الأمثلة: Canary-Qwen-2.5B من NVIDIA، وGranite-Speech-3.3-8B من IBM، وPhi-4-Multimodal-Instruct من مايكروسوفت. وتمتاز NVIDIA بتطوير نسخة أسرع تُسمى Fast Conformer، تُستخدم في نماذجها مثل Canary وParakeet. مع ذلك، تُعد هذه النماذج بطيئة نسبيًا مقارنة ببدائل أخرى. وعند قياس الكفاءة باستخدام معامل RTFx (الذي يعكس سرعة الترجمة مقارنة بالوقت الفعلي)، تُظهر النماذج التي تعتمد على CTC أو TDT تفوقًا كبيرًا في السرعة، بعشرة إلى مائة أضعاف أسرع، رغم ارتفاع معدل الأخطاء قليلاً. هذا يجعلها مثالية للتطبيقات الحقيقية، مثل الترجمة في الوقت الفعلي أو معالجة الملفات الكبيرة. فيما يتعلق بالترجمة متعددة اللغات، يظل Whisper Large v3 من OpenAI معيارًا قويًا، ويُغطي 99 لغة. لكن النماذج المُعدَّلة أو المُبسَّطة مثل Distil-Whisper وCrisperWhisper تتفوَّق أحيانًا في المهام الإنجليزية، مما يُظهر فائدة التخصيص من خلال التدريب المُخصص. ومع ذلك، يُلاحظ تناقض بين التخصص والشمول: تركز النماذج المُخصَّصة على لغة واحدة (غالبًا الإنجليزية) وتُقلل من تغطيتها اللغوية. في المقابل، تُقدِّم نماذج مثل MMS وOmnilingual ASR من ميتا دعمًا لـ 1000 لغة، لكنها تُقلّد في الدقة مقارنة بالنماذج المُخصَّصة. تُعد مسارات الترجمة الطويلة تحديًا مختلفًا تمامًا. رغم تفوق النماذج المُغلقة في هذا المجال، تُظهر Whisper Large v3 أداءً متميزًا بين النماذج المفتوحة. لكن الأداء الأفضل من حيث السرعة يُحقِّقه نموذج Parakeet CTC 1.1B من NVIDIA، الذي حقق RTFx بلغ 2793.75 مقابل 68.56 لـ Whisper، مع تدهور طفيف في الدقة (6.68 مقابل 6.43). هذه النتيجة تُذكِّر بضرورة التوازن بين الدقة والسرعة، خصوصًا في السياقات التي تتطلب معالجة كميات كبيرة من الصوت. تُعد هذه التطورات فرصة مثالية لتعزيز الابتكار المفتوح، خصوصًا في مجال الترجمة الطويلة. وتُخطط اللائحة لتوسيع نطاقها ليشمل لغات أكثر، وتشجيع المساهمات من خلال مخازن GitHub. كما تُسهم مبادرات محلية مثل لائحة الترجمة العربية المفتوحة وروسيا في تعزيز التقييم الشفاف، وتشجيع مشاركة البيانات والنماذج، خاصة في اللغات ذات الموارد المحدودة. مع استمرار التطور السريع في مجال ASR، تبقى اللائحة المفتوحة أداة حيوية لقياس الأداء، وتمكين المجتمع من الابتكار بشفافية. وتشجع المبادرة المطورين على المساهمة عبر مخازن GitHub لمواصلة تطوير هذا المجال الحيوي.

الروابط ذات الصلة