HyperAIHyperAI

Command Palette

Search for a command to run...

التقنية الثنائية المعرفية المستندة إلى النص لفهم اللغة الشفهية من الطرف إلى الطرف

Seongbin Kim Gyuwan Kim Seongjin Shin Sangmin Lee

الملخص

تُتيح النهج المتكاملة من الطرف إلى الطرف طريقة جديدة لتحقيق أنظمة أكثر دقة وكفاءة لفهم اللغة الشفهية (SLU)، وذلك بتقليل العيوب المتأصلة في الأنظمة التقليدية القائمة على خطوات متسلسلة. في الدراسات السابقة، تم استغلال المعلومات النصية في نموذج فهم اللغة الشفهية من خلال التدريب المسبق باستخدام تقنيات التعرف التلقائي على الكلام أو من خلال التحسين الدقيق باستخدام تبادل المعرفة. وللتمكن من استغلال المعلومات النصية بشكل أكثر فعالية، تقدم هذه الدراسة طريقة تبادل معرفة نصية مزدوجة المرحلة، تُطابق تمثيلات المستوى الجملة (utterance-level) والنتائج المتوقعة (logits) للكلا الوسائط (الصوتية والنصية) أثناء التدريب المسبق والتحسين الدقيق، بشكل متسلسل. نستخدم نموذج vq-wav2vec BERT كمشفر للصوت نظرًا لقدرته على التقاط ميزات عامة وغنية. علاوةً على ذلك، نُحسّن الأداء، خصوصًا في السياقات ذات الموارد المحدودة، باستخدام تقنيات تضخيم البيانات من خلال تمرير أجزاء عشوائية من الرموز الصوتية المنفصلة وتمثيلات المخزون المُحتَفَظ بها المُحتَوَية على السياق. في النتيجة، نُحقّق أحدث المستويات المتطورة في مجموعة بيانات Fluent Speech Commands، حيث بلغت دقة الاختبار 99.7% في إعداد البيانات الكاملة، و99.5% في إعداد مجموعة فرعية بنسبة 10%. وخلال دراسات التحليل التجريبي (ablation studies)، تأكدنا تجريبيًا من أن جميع الأساليب المستخدمة تُعدّ حاسمةً لأداء النموذج النهائي، مما يُقدّم أفضل الممارسات لفهم اللغة الشفهية. يُمكن الاطلاع على الشفرة المصدرية عبر الرابط: https://github.com/clovaai/textual-kd-slu.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp