Command Palette
Search for a command to run...
شانكس: الاستماع والتفكير المتزامنين لنماذج اللغة الشفهية
Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

الملخص
النماذج اللغوية الكبيرة الحالية (LLMs) والنماذج اللغوية الصوتية (SLMs) تبدأ في التفكير والتنفيذ فقط بعد انتهاء المستخدم من وقته. وهذا يمنع النموذج من التفاعل أثناء الحديث الخاص بالمستخدم، وقد يؤدي إلى تأخير كبير في الاستجابة أثناء انتظاره للتفكير. وبالتالي، فإن التفكير بعد استلام المدخلات كاملة لا يُعد مناسبًا للتفاعل الصوتي-الصوتي، حيث يُعد التبادل الفوري والمنخفض التأخير أمرًا بالغ الأهمية. نعالج هذه المشكلة من خلال ملاحظة أن البشر يفكرون بشكل طبيعي "أثناء الاستماع". في هذه الورقة، نقترح إطارًا استنتاجيًا عامًا يُسمى SHANKS، والذي يمكّن النماذج اللغوية الصوتية من إنتاج سلسلة من التفكير غير المُعلَنة (unspoken chain-of-thought) أثناء الاستماع إلى مدخلات المستخدم. يقوم SHANKS بتدفق الصوت المدخل على شكل كتل ثابتة الطول، وبمجرد استلام كل كتلة، يُنتج تفكيرًا غير مُعلَن بناءً على جميع المدخلات والتفكير السابق، بينما يستمر المستخدم في الحديث. يستخدم SHANKS هذا التفكير غير المُعلَن لاتخاذ قرارات بشأن ما إذا كان ينبغي مقاطعة المستخدم، أو تنفيذ استدعاءات أدوات لإكمال المهمة. نُظهر أن SHANKS يُحسّن التفاعل الفوري بين المستخدم والنموذج اللغوي الصوتي في حالتين: (1) عند قيام المستخدم بعرض حل خطوة بخطوة لمشكلة رياضية، يمكن لـ SHANKS الاستماع والتفكير والانقطاع عند حدوث خطأ من المستخدم، ما يحقق دقة انقطاع أعلى بنسبة 37.1% مقارنة بنموذج مرجعي ينقطع دون تفكير؛ و(2) في محادثة مُعززة بأدوات، يمكن لـ SHANKS إنجاز 56.9% من استدعاءات الأدوات قبل انتهاء المستخدم من وقته. بشكل عام، يُعد SHANKS خطوة نحو نماذج تواصل مستمرة في التفكير طوال المحادثة، وليس فقط بعد انتهاء الجولة. يمكن الاطلاع على رسومات متحركة توضيحية لـ SHANKS من خلال الرابط التالي: https://d223302.github.io/SHANKS/
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.