HyperAIHyperAI
منذ 17 أيام

تعلم تمثيلات فعالة للكشف عن الكلمات المفتاحية باستخدام خسارة الثلاثي

Roman Vygon, Nikolay Mikhaylovskiy
تعلم تمثيلات فعالة للكشف عن الكلمات المفتاحية باستخدام خسارة الثلاثي
الملخص

في السنوات القليلة الماضية، أصبحت التمثيلات القياسية المستندة إلى خسارة الثلاثيات (triplet loss-based metric embeddings) المعيار الفعلي لعدة مشكلات مهمة في الرؤية الحاسوبية، وبشكل خاص إعادة التعرف على الأشخاص (person reidentification). من ناحية أخرى، في مجال التعرف على الكلام، لا تُستخدم التمثيلات القياسية الناتجة عن خسارة الثلاثيات بشكل شائع، حتى في المشكلات التصنيفية. ونُغطي هذا الفجوة، موضحين أن مزيجًا بين تقنيتين لتعلم التمثيل: تمثيل مستند إلى خسارة الثلاثيات، وطريقة مُعدّلة لـ kNN للتصنيف بدلًا من خسارة التقاطع الإنتروبي (cross-entropy loss)، يُحسّن بشكل كبير (بمقدار 26% إلى 38%) دقة التصنيف للشبكات العصبية التلافيفية (convolutional networks) على مجموعة بيانات مُستمدة من LibriSpeech تُسمى LibriWords. ولتحقيق ذلك، نقترح منهجية جديدة لاستخراج الثلاثيات تعتمد على التشابه الصوتي (phonetic similarity based triplet mining). كما نُحسّن أداء أفضل نتيجة منشورة حتى الآن (SOTA) على مجموعة بيانات Google Speech Commands الإصدار 1 (10+2 فئة) بنسبة تقارب 34%، ونحقق دقة تصل إلى 98.55%، وعلى الإصدار 2 (10+2 فئة) بنسبة تقارب 20%، ونصل إلى دقة 98.37%، وعلى الإصدار 2 (35 فئة) بنسبة تزيد عن 50%، ونصل إلى دقة 97.0%.