C3: معيار ثنائي اللغة لنماذج الحوار الشفهي التي تستكشف التحديات في المحادثات المعقدة

أظهرت نماذج الحوار الشفهي (SDMs) اهتمامًا كبيرًا في الآونة الأخيرة بفضل قدرتها على إنتاج ردود صوتية مباشرة استجابةً لاستفسارات المستخدمين الشفهية. وعلى الرغم من تزايد شعبيتها، لا تزال هناك فجوة في الأبحاث المخصصة لفهم شامل لفعاليتها العملية في فهم ومحاكاة المحادثات البشرية. ويُعد هذا الأمر أكثر وضوحًا مقارنةً بالنماذج اللغوية الكبيرة القائمة على النص (LLMs)، التي تستفيد من معايير تقييم واسعة النطاق. فالتفاعلات الصوتية البشرية بطبيعتها أكثر تعقيدًا من التفاعلات النصية، نظرًا للخصائص الفريدة للحوار الشفهي. وتُشكل الغموض تحديًا رئيسيًا، ناتجًا عن عوامل دلالية مثل التعدد المعاني، بالإضافة إلى جوانب صوتية مثل التشابه في الكتابة مع اختلاف النطق، والكلمات المتشابهة في الكتابة ولكن مختلفة في المعنى، وأنماط التأكيد الصوتي. علاوةً على ذلك، فإن الاعتماد على السياق، مثل حذف العبارات، والمرجعية، والتفاعل متعدد الدورات، يضيف مستوى إضافيًا من التعقيد إلى الديناميكيات البشرية في المحادثة. ولإيضاح الحالة الحالية في تطوير نماذج الحوار الشفهي، ومواجهة هذه التحديات، نقدم في هذا البحث مجموعة بيانات معيارية تضم 1,079 مثالًا باللغة الإنجليزية والصينية. وتتماشى هذه المجموعة مع طريقة تقييم تعتمد على النماذج اللغوية الكبيرة (LLMs)، وتُحاكي بشكل وثيق التقييم البشري، مما يُمكّن من استكشاف شامل لأداء نماذج الحوار الشفهي في مواجهة هذه التحديات العملية.