الفهم اللغوي الشفهي من الطرف إلى الطرف لمساعدين صوتيين عامين

تمثّل أنظمة فهم اللغة الشفهية (SLU) من الطرف إلى الطرف (E2E) التنبؤ بمعاني الجمل مباشرةً من الصوت باستخدام نموذج واحد. ركّزت الدراسات السابقة في هذا المجال على مهام محددة ضمن مجالات ثابتة، حيث يُفترض مسبقًا بنية المعنى الناتجة، ويتسم الصوت المدخل بدرجة معقّدة محدودة. في هذه الدراسة، نقدّم نهجنا لتطوير نموذج E2E لفهم اللغة الشفهية العام في المساعدات الصوتية التجارية (VAs). نقترح نظامًا هرميًا قائمًا على الترانسفورمر، تمامًا قابلاً للتفاضل، يمكن تدريبه مسبقًا على مستويي التعرف على الكلام (ASR) وفهم اللغة الطبيعية (NLU). ثم يتم تحسينه دقيقًا باستخدام خسائر في التحويل الصوتي وتصنيف المعنى، لمعالجة مجموعة متنوعة من التوليفات بين النوايا (intent) والمعطيات (arguments). يؤدي هذا إلى نظام SLU يحقق تحسينات كبيرة مقارنة بالأساليب الأساسية على مجموعة بيانات داخلية معقدة تُمثّل المساعدات الصوتية العامة، مع تحقيق تحسن بنسبة 43% في الدقة، مع الحفاظ على معيار الدقة 99% على مجموعة بيانات Fluent Speech Commands الشهيرة. كما قمنا بتقييم نموذجنا على مجموعة اختبار صعبة، تتضمّن حصريًا معطيات مكانية (slot arguments) لم تُرَ في التدريب، ونُظهر تحسنًا يقارب 20%، مما يُظهر فعالية نهجنا في السيناريوهات الحقيقية الصعبة للمساعدات الصوتية.