تصحيح أخطاء التعرف على الكلام التوليدي باستخدام النماذج اللغوية الكبيرة والتحفيز المُوجه للمهام

نستعرض القدرة النموذجات اللغوية الكبيرة (LLMs) على التصرف كمعالجات ما بعد التعرف على الصوت، تقوم بعملية إعادة تقييم (rescoring) وإصلاح الأخطاء. يتركز تركيزنا الأول على التوجيه بالتعليمات (instruction prompting) لتمكين النماذج من أداء هذه المهام دون الحاجة إلى التدريب المخصص، حيث نقيم مختلف أساليب التوجيه، سواء في التعلم صفرية المثال (zero-shot) أو قليلة المثال (few-shot) داخل السياق، بالإضافة إلى طريقة جديدة تُعرف بـ "التوجيه التفعيلي للمهمة" (task activation prompting)، التي تجمع بين التعليمات السببية والتمثيلات التوضيحية لزيادة كفاءة النموذج في استخدام نافذة السياق. ثم نُظهر أن إعادة التقييم باستخدام التعلم داخل السياق مع نماذج LLMs ثابتة (frozen) تُحقق نتائج تنافسية مع إعادة التقييم باستخدام نماذج مُدرّبة على مجال معين، وذلك باستخدام نظام أولي مُدرّب مسبقًا للتعرف على الصوت، وتطبيق إعادة التقييم على مهام خارج المجال (ATIS وWSJ). وبدمج تقنيات التوجيه مع التدريب المخصص، نحقق معدلات أخطاء أقل من مستوى "النقطة المثلى من بين N" (N-best oracle)، مما يُظهر القوة العامة للنموذج اللغوي الكبير في التعميم.