تقييم وكلاء صوت للتعامل ثنائي
يُعد التعرف التلقائي على الصوت حجر الزاوية في وكلاء الصوت المؤسسيين، وتبرز مشكلة التبديل اللغوي السلس أو الكود سويتشينغ كتحدي تقني جوهري. نظراً لأن أكثر من نصف سكان العالم يتواصلون بلغتين، وطالما غاب المعيار الدقيق لاختبار أداء النماذج في هذا السياق، قام فريق بحثي ببناء مجموعة بيانات ومعايير تقييم جديدة تركز على أزواج لغوية رئيسية في بيئات الموارد البشرية وخدمات تكنولوجيا المعلومات، وهي الإسبانية والإنجليزية، والفرنسية والإنجليزية، والفرنسية الكندية والإنجليزية، والألمانية والإنجليزية. اعتمدت المنهجية على ثلاثة مقاييس رئيسية: معدل خطأ الكلمات، ومعدل خطأ الكلمات الدلالي، ومعدل خطأ الإجابة لقياس نقل المعنى وتأثيره على المهام اللاحقة. شملت التقييمات أنظمة الذكاء الاصطناعي الرائدة منها Scribe V2 من ElevenLabs، وGemini 3 Flash من Google، وUniversal 3-Pro من AssemblyAI. أظهرت النتائج أن هذه النماذج الثلاثة تتصدر المشهد بأقل هامش خطأ، مع تفوق طفيف لنموذج ElevenLabs في معظم الأزواج اللغوية. في المقابل، سجل نموذج Whisper من OpenAI أداءً أضعف بشكل ملحوظ، وذلك بسبب ميوله التلقائية إلى الترجمة بدلاً من التسجيل الدقيق عند غياب معلمات اللغة المحددة. كشف التحليل الإحصائي أن تكلفة التبديل اللغوي تختلف بشكل كبير حسب النموذج وزوج اللغة. لم تعاني النماذج المتقدمة من تدهور كبير في الدقة مقارنةً بالخطاب أحادي اللغة، مما يشير إلى مرونة عالية في التعامل مع الإدخال ثنائي اللغة. كما أظهرت النماذج أن عدد مرات التبديل داخل الجملة يرتبط ارتباطاً وثيقاً باحتمالية وقوع الأخطاء، بينما تحدد كثافة الخلط اللغوي حجم هذه الأخطاء عند حدوثها. ما يثير الاهتمام تقنياً هو تركيز الأخطاء على الأجزاء الإنجليزية من الجمل رغم أن النماذج تتفوق تقليدياً على الإنجليزية في الظروف أحادية اللغة. يعزو الباحثون هذا التناقض إلى احتمالية احتواء الأجزاء المضمنة على مصطلحات تقنية معقدة، أو صعوبة تكيف النماذج سريعاً مع الانتقال بين السياقين الصوتي والمفرداتي داخل الجملة الواحدة. تتيح هذه الدراسة إطار عمل مفتوحاً عبر منصة AU-Harness لتقييم وكلاء الصوت، وتشير إلى أن التبديل اللغوي لم يعد عائقاً غير قابل للحل للنماذج الرائدة. ومع ذلك، تحذر النتائج من تعميم الأداء على جميع الأزواج اللغوية. يُنصح القادة المؤسسيين بإجراء اختبارات معيارية دقيقة لكل زوج لغوي لعملائهم قبل اعتماد أنظمة معينة، حيث تتفاوت الدقة بشكل ملحوظ بين الأزواج المختلفة. إن اختيار النظام المناسب يضمن تجربة سلسة لعملاء ثنائيي اللغة دون المساس بجودة التسجيل أو دقة المهام التشغيلية اللاحقة.
