HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيلات فعالة للكشف عن الكلمات المفتاحية باستخدام خسارة الثلاثي

Roman Vygon Nikolay Mikhaylovskiy

الملخص

في السنوات القليلة الماضية، أصبحت التمثيلات القياسية المستندة إلى خسارة الثلاثيات (triplet loss-based metric embeddings) المعيار الفعلي لعدة مشكلات مهمة في الرؤية الحاسوبية، وبشكل خاص إعادة التعرف على الأشخاص (person reidentification). من ناحية أخرى، في مجال التعرف على الكلام، لا تُستخدم التمثيلات القياسية الناتجة عن خسارة الثلاثيات بشكل شائع، حتى في المشكلات التصنيفية. ونُغطي هذا الفجوة، موضحين أن مزيجًا بين تقنيتين لتعلم التمثيل: تمثيل مستند إلى خسارة الثلاثيات، وطريقة مُعدّلة لـ kNN للتصنيف بدلًا من خسارة التقاطع الإنتروبي (cross-entropy loss)، يُحسّن بشكل كبير (بمقدار 26% إلى 38%) دقة التصنيف للشبكات العصبية التلافيفية (convolutional networks) على مجموعة بيانات مُستمدة من LibriSpeech تُسمى LibriWords. ولتحقيق ذلك، نقترح منهجية جديدة لاستخراج الثلاثيات تعتمد على التشابه الصوتي (phonetic similarity based triplet mining). كما نُحسّن أداء أفضل نتيجة منشورة حتى الآن (SOTA) على مجموعة بيانات Google Speech Commands الإصدار 1 (10+2 فئة) بنسبة تقارب 34%، ونحقق دقة تصل إلى 98.55%، وعلى الإصدار 2 (10+2 فئة) بنسبة تقارب 20%، ونصل إلى دقة 98.37%، وعلى الإصدار 2 (35 فئة) بنسبة تزيد عن 50%، ونصل إلى دقة 97.0%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp