مقياس نماذج التوصية ذات التحويلات إلى بليار معلمات: تجربة ياندكس في تطوير نموذج ARGUS
في محاولة لتجاوز الحدود الحالية في أنظمة التوصية، قاد فريق البحث والتطوير في ياندكس بقيادة كيريل خريتشينكو تجربة طموحة لتوسيع نماذج الترانسفورمر لتشمل مليار معلمة، مما يمثل خطوة جوهرية في تطوير أنظمة توصية ذكية ودقيقة. الهدف من هذا التوسع هو تحسين دقة التوصيات من خلال توظيف نماذج تعلم آلي قادرة على فهم سلوك المستخدمين بعمق، لا سيما في سياقات معقدة مثل التوصية بالموسيقى. تُعد أنظمة التوصية ضرورية في عصر المعلومات المفرطة، حيث يصعب على المستخدمين استيعاب كميات هائلة من المحتوى. تُستخدم هذه الأنظمة ليس فقط لتحسين تجربة المستخدم، بل أيضًا لمساعدة المبدعين على الوصول إلى جمهورهم المستهدف. في ياندكس، تم تطوير نموذج جديد يُعرف باسم ARGUS (AutoRegressive Generative User Sequential Modeling)، وهو نموذج ترانسفورمر مُدرّب على سلسلة من التفاعلات المستخدم-العنصر، بما في ذلك السياق والتفاعل (مثل الإعجاب أو الاستماع أو التخطي). يختلف ARGUS عن النماذج التقليدية مثل SASRec، التي تركز فقط على توقع "العنصر التالي" بناءً على التفاعلات الإيجابية. بدلًا من ذلك، يُدرّب ARGUS على مهام متعددة: توقع العنصر التالي (بما في ذلك التفاعلات السلبية) وتوقع التفاعل (مثل الإعجاب أو الاستماع الكامل). هذا يسمح للنموذج بفهم سلوك المستخدم بشكل أعمق، وليس فقط التنبؤ بالسلوك المحتمل. أحد التحديات الكبرى في تدريب نماذج بهذا الحجم هو الطول الطويل للتاريخ المستخدم، الذي يمكن أن يصل إلى عشرات الآلاف من التفاعلات. لحل هذه المشكلة، طوّر الفريق نسخة مبسطة من النموذج، حيث يتم دمج كل ثلاثية (سياق، عنصر، تفاعل) في متجه واحد، مما يقلل من طول المدخلات بنسبة 75% ويُسرّع التدريب بشكل كبير. تم تدريب النموذج باستخدام بيانات ضخمة تتجاوز 300 مليار تفاعل من مستخدمين، مع استخدام تقنيات مثل التعلم التلقائي (autoregressive learning)، والتي تسمح بمعالجة تاريخ المستخدم بالكامل في خطوة واحدة، بدلًا من إعادة تشغيل النموذج لكل تفاعل. هذا يُحدث تسريعًا كبيرًا في عملية التدريب، خاصة عند التفتيش على النموذج لتحسين الترتيب. في التجارب، تم اختبار أربع إصدارات من النموذج بحجم يتراوح بين 3.2 مليون و1.007 مليار معلمة. أظهرت النتائج ارتفاعًا ملحوظًا في جودة التوصيات مع كل زيادة في حجم النموذج، ما يدعم فرضية التوسع (scaling hypothesis) في التعلم العميق. كما أظهر النموذج تفوقًا على نموذج HSTU المُقترح من ميتا، رغم أن الأخير يحتوي على عدد معلمات أكبر. النتائج الميدانية في منصة الموسيقى أظهرت تحسنًا كبيرًا: زيادة بنسبة 12% في الوقت الإجمالي للإسقاط، و10% في احتمال الإعجاب، و0.75% في الوقت المستخدم مع أجهزة المتكلم الذكية. في سيناريو "غير مألوف" (Unfamiliar)، حيث يبحث المستخدمون عن محتوى جديد، حقق النموذج نجاحًا ملحوظًا، مما يدل على قدرته على التعامل مع حالات غير تقليدية. تم دمج ARGUS ليس فقط كميزة في الترتيب النهائي، بل أيضًا كأداة لتوليد المرشحين، مما يفتح آفاقًا جديدة لدمج النماذج العصبية في جميع مراحل النظام. هذه الخطوة تمثل تطورًا جوهريًا نحو أنظمة توصية تعتمد على الترانسفورمرات بقوة، حيث تُصبح النماذج الأكبر والمعقدة جزءًا لا يتجزأ من تجربة المستخدم.
