HyperAI

التعرف التلقائي على الكلام

تقنية التعرف التلقائي على الكلام هي تقنية تقوم بتحويل الكلام البشري إلى نص. بسبب تنوع وتعقيد إشارات الكلام، لا يستطيع نظام التعرف على الكلام الحالي تحقيق أداء مرضي إلا في ظل قيود معينة (لا يمكن تطبيقه إلا على مناسبات محددة معينة).

تعريف التعرف التلقائي على الكلام

الهدف من تقنية التعرف التلقائي على الكلام هو تمكين أجهزة الكمبيوتر من "إملاء" الكلام المستمر الذي يتحدث به أشخاص مختلفون، وهو ما يُعرف عادةً باسم "آلة إملاء الصوت". إنها تقنية تقوم بتحويل "الصوت" إلى "نص".

العوامل المؤثرة على الأداء

يعتمد أداء نظام التعرف على الكلام بشكل عام على العوامل الأربعة التالية:

  1. التعرف على حجم المفردات وتعقيد الكلام؛
  2. جودة إشارة الكلام؛
  3. مكبر صوت واحد أو مكبرات صوت متعددة؛
  4. الأجهزة.

تصنيف التعرف التلقائي على الكلام

يتم تصنيف التعرف التلقائي على الكلام عادةً بالطرق التالية:

  1. وفقًا لمستخدمي النظام، يمكن تقسيمه إلى: نظام تحديد هوية شخص محدد ونظام تحديد هوية شخص غير محدد؛
  2. حسب نظام المفردات: نظام المفردات الصغيرة، ونظام المفردات المتوسطة، ونظام المفردات الكبيرة؛
  3. وفقا لطريقة إدخال الكلام: الكلمات المعزولة، الكلمات المتصلة، نظام الكلام المستمر، الخ.
  4. وفقا لنطق الصوت المدخل، يمكن تقسيمه إلى: أسلوب القراءة، أسلوب التحدث (النطق الطبيعي)؛
  5. وفقًا للخلفية اللهجية للكلام المدخل، يمكن تقسيمه إلى: الماندرين، والماندرين مع خلفية لهجية، ونظام التعرف على الكلام اللهجي؛
  6. وفقًا للحالة العاطفية للكلام المدخل، يتم تقسيمه إلى أنظمة التعرف على الكلام المحايد والكلام العاطفي.

نموذج التعرف التلقائي على الكلام

تستخدم أنظمة التعرف على الكلام ذات المفردات الكبيرة في الغالب تقنية التعرف على الأنماط الإحصائية. يتكون نظام التعرف على الكلام النموذجي الذي يعتمد على طريقة التعرف على الأنماط الإحصائية من الوحدات الأساسية التالية:

  • وحدة معالجة الإشارات واستخراج الميزات: المهمة الرئيسية لهذه الوحدة هي استخراج الميزات من إشارة الإدخال لمعالجتها بواسطة النموذج الصوتي. وفي الوقت نفسه، فإنه يشمل عمومًا أيضًا بعض تقنيات معالجة الإشارة لتقليل تأثير الضوضاء البيئية والقنوات ومكبرات الصوت والعوامل الأخرى على الميزات.
  • النموذج الصوتي: يتم تصميم الأنظمة النموذجية في الغالب على أساس نموذج ماركوف المخفي من الدرجة الأولى.
  • قاموس النطق: يحتوي قاموس النطق على مجموعة المفردات التي يمكن للنظام التعامل معها ونطقها. في الواقع، يوفر قاموس النطق مطابقة بين وحدات النمذجة النموذجية الصوتية ووحدات النمذجة النموذجية اللغوية.
  • نموذج اللغة: نموذج اللغة هو نموذج اللغة الذي يستهدفه النظام. من الناحية النظرية، يمكن استخدام نماذج لغوية مختلفة بما في ذلك اللغات العادية وقواعد اللغة الخالية من السياق كنماذج لغوية، ولكن حاليًا تستخدم أنظمة مختلفة بشكل عام قواعد اللغة الإحصائية N-gram ومتغيراتها.
  • فك التشفير: يعد فك التشفير أحد المكونات الأساسية لنظام التعرف على الكلام. مهمتها هي العثور على سلسلة الكلمات التي يمكنها إخراج الإشارة بأعلى احتمالية استنادًا إلى الصوتيات ونموذج اللغة والقاموس.