HyperAIHyperAI

Command Palette

Search for a command to run...

الفهم اللغوي الشفهي من الطرف إلى الطرف لمساعدين صوتيين عامين

Michael Saxon Samridhi Choudhary Joseph P. McKenna Athanasios Mouchtaris

الملخص

تمثّل أنظمة فهم اللغة الشفهية (SLU) من الطرف إلى الطرف (E2E) التنبؤ بمعاني الجمل مباشرةً من الصوت باستخدام نموذج واحد. ركّزت الدراسات السابقة في هذا المجال على مهام محددة ضمن مجالات ثابتة، حيث يُفترض مسبقًا بنية المعنى الناتجة، ويتسم الصوت المدخل بدرجة معقّدة محدودة. في هذه الدراسة، نقدّم نهجنا لتطوير نموذج E2E لفهم اللغة الشفهية العام في المساعدات الصوتية التجارية (VAs). نقترح نظامًا هرميًا قائمًا على الترانسفورمر، تمامًا قابلاً للتفاضل، يمكن تدريبه مسبقًا على مستويي التعرف على الكلام (ASR) وفهم اللغة الطبيعية (NLU). ثم يتم تحسينه دقيقًا باستخدام خسائر في التحويل الصوتي وتصنيف المعنى، لمعالجة مجموعة متنوعة من التوليفات بين النوايا (intent) والمعطيات (arguments). يؤدي هذا إلى نظام SLU يحقق تحسينات كبيرة مقارنة بالأساليب الأساسية على مجموعة بيانات داخلية معقدة تُمثّل المساعدات الصوتية العامة، مع تحقيق تحسن بنسبة 43% في الدقة، مع الحفاظ على معيار الدقة 99% على مجموعة بيانات Fluent Speech Commands الشهيرة. كما قمنا بتقييم نموذجنا على مجموعة اختبار صعبة، تتضمّن حصريًا معطيات مكانية (slot arguments) لم تُرَ في التدريب، ونُظهر تحسنًا يقارب 20%، مما يُظهر فعالية نهجنا في السيناريوهات الحقيقية الصعبة للمساعدات الصوتية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp