HyperAIHyperAI
Back to Headlines

موديل UserLM-8b من مايكروسوفت يُعدّ نموذجًا ذكاءً اصطناعيًا مُخصصًا لمحاكاة دور المستخدم في المحادثات، بدلًا من دور المساعد التقليدي، ويُستخدم لتطوير نماذج مساعدين أكثر قوة وواقعية

منذ 5 أيام

تم تطوير نموذج UserLM-8b من قبل فريق بحثي في مايكروسوفت (MSR)، بقيادة تارك ناوس (متدرب في MSR صيف 2025)، وفيليب لابان، ووي شو، وجينيفر نيفيل، بهدف تغيير الدور التقليدي للنماذج اللغوية الكبيرة (LLMs). بينما تُدرَّب معظم النماذج لتمثيل "المساعد" في المحادثات، تم تدريب UserLM-8b لتمثيل "المستخدم" من خلال تدريبه على توقع ردود المستخدمين في مجموعة بيانات واسعة من المحادثات تُسمى WildChat. يُعد هذا النموذج أداة بحثية مبتكرة لمحاكاة محادثات واقعية، مما يُعزز تطوير نماذج مساعدين أكثر قوة وموثوقية. يُدخل المستخدم إلى النموذج عن طريق تحديد "نية المهمة" (task intent)، مثل تنفيذ تسلسل رياضي أو كتابة دالة برمجية. ثم يُولِّد النموذج ردودًا أولية، أو تتابعات حسب حالة المحادثة، أو إشارة لاختتام المحادثة باستخدام الرمز <|endconversation|>. يتم تحميل النموذج باستخدام مكتبة Transformers من Hugging Face، مع دعم للجهاز GPU، ويتطلب تكوينًا دقيقًا للإدخال باستخدام قالب المحادثة المناسب. يُستخدم UserLM-8b أساسًا في أبحاث تقييم نماذج المساعدات، حيث يُظهر تفوقًا على الطرق التقليدية التي تعتمد على توجيه نموذج مساعد لتمثيل المستخدم، من حيث واقعية المحادثات، وتنوع السياق، وتقسيم المعلومات عبر الجلسات. كما يُعدّ مرجعاً محتملاً لتطبيقات مستقبلية مثل نمذجة المستخدمين، وتدريب نماذج تقييم (LLM-as-a-judge)، وإنشاء بيانات اصطناعية مدعومة بنموذج مساعد. ومع ذلك، يُنصح بعدم استخدامه في التطبيقات التجارية أو الواقعية دون تقييم دقيق، لأنه ليس نموذجًا مساعدًا، ولا يُعد مناسبًا للمستخدمين العاديين الذين يحتاجون إلى مساعدة في المهام. كما يحمل بعض المخاطر، منها التحريف في المهمة (hallucination)، حيث قد يضيف النموذج شروطًا أو معلومات غير مذكورة في النية، مما قد يُربك التقييم. كما أن أداؤه مُصمم للغة الإنجليزية، وقد يختلف في اللغات الأخرى. تم تدريب النموذج على نسخة مُنظفة من مجموعة WildChat-1M، باستخدام تدريب كامل للبارامترات على نموذج Llama3-8b، مع استخدام 4 بطاقات NVIDIA RTX A6000، ووقت تدريب يبلغ 227 ساعة. تم تقييم النموذج على بيانات مُستقلة (مثل PRISM وLost in Conversation)، وتبين أنه يتفوق في معايير التوافقيّة (Perplexity)، والقدرة على إنهاء المحادثات، وتقسيم المعلومات، وتنوع اللغة، مقارنةً بالطرق السابقة. يُنصح المستخدمون بتطبيق حواجز توليد (guardrails) مثل تقييد طول النص، وتجنب التكرار الحرفي، وتجنب إنهاء المحادثة مبكرًا، لضمان جودة المحاكاة. النموذج مُتاح للبحث فقط، مع دعوة للتعاون والاقتراحات عبر البريد الإلكتروني المذكور.

Related Links