إيماورانت أوج: وكيل تكبير البيانات للصوت

نقدّم تقنية تُسمى ImportantAug، وهي تقنية لتعزيز بيانات التدريب لنماذج تصنيف وتمييز الكلام من خلال إضافة ضجيج إلى المناطق غير الهامة في الكلام، دون إضافته إلى المناطق الهامة. ويُقدّر مدى الأهمية لكل تعبير صوتي بواسطة وكيل تعزيز البيانات، والذي يُدرّب على تقليل التأثير على أداء التعرف مع زيادة كمية الضجيج المُضافة. وتُوضّح فعالية طريقتنا على النسخة الثانية من مجموعة بيانات Google Speech Commands (GSC). وعلى مجموعة الاختبار القياسية لـ GSC، تحقق الطريقة تقليلًا نسبيًا بنسبة 23.3% في معدل الخطأ مقارنة بالتعزيز التقليدي للضجيج، الذي يُطبّق الضجيج على الكلام دون أخذ في الاعتبار أين يكون الأكثر فعالية. كما تقدم طريقة ImportantAug تقليلًا بنسبة 25.4% في معدل الخطأ مقارنة بحالة الأساس دون تعزيز البيانات. علاوة على ذلك، تتفوّق ImportantAug على التعزيز التقليدي للضجيج والقاعدة على مجموعتي اختبار إضافيتين تم إدخال ضجيج إضافي عليهما.