HyperAI
Back to Headlines

نُموذج OneRec للتجهيزات النهائية للrecommendations يقوم بكفاءة توليد مقترحات فيديو عبر تقنية التشفير والترميز الجديدة المُلهَمة من نماذج اللغات الكبرى، وينشرها快手 بنجاح

منذ 7 أيام

ملخص حول نموذج OneRec للترشيح القائم على نماذج اللغة الكبيرة الخلفية والسبب تعد "OneRec" نموذج ترشيح فيديو جديد تم تطويره بواسطة "كوايشو" (منصة الفيديوهات القصيرة)، ويتفرع هذا النموذج عن نماذج الترشيح التقليدية من خلال اعتماده على هيكلية توليدية مشابهة لنماذج اللغة الكبيرة (LLMs). بينما تتطلب النماذج التقليدية عدة خطوات مثل الاستدعاء الأولي، التصنيف الخشن، الترتيب الدقيق، وإعادة الترتيب، يقوم OneRec بكل هذه الخطوات في نموذج واحد متكامل، مما يبسط العملية ويحسن كفاءة استخدام الموارد. الهيكلية الأساسية المركب الكلماتي (Tokenizer): - الخطوة الأولى: يتم تقسيم ملايين الفيديوهات إلى معرفات معنى باستخدام طريقة تجميعية. يتم إدخال عناوين الفيديوهات، العلامات، التعرف الصوتي (ASR)، التعرف البصري (OCR)، الصورة الغلافية، وإطارات الفيديو المختارة بانتظام إلى نموذج كبير يسمى miniCPM-V-8B للحصول على متجهات ميزات عالية الأبعاد. - الخطوة الثانية: يتم ضغط هذه المتجهات باستخدام QFormer، وهي عملية تضمن حفظ المعلومات وتسهيل المعالجة اللاحقة. - الخطوة الثالثة: يتم تحويل المتجهات المضغوطة إلى رموز قابلة للتوليد باستخدام خوارزمية التجميع المتدرج (RQ-Kmeans). يتم تقسيم كل متجه إلى ثلاثة مستويات من التجميع (خشن، متوسط، دقيق)، مما يوفر تمثيلاً دقيقاً لكل فيديو. المشفّر (Encoder): - ميزات المستخدم الثابتة: تشمل معرف المستخدم، العمر، والجنس. - مسار السلوك قصير المدى: يعالج السجلات التفاعلية الأخيرة للمستخدم (20 تسجيلاً). - مسار السلوك الإيجابي: يعالج التفاعلات التي تشير إلى اهتمام عالي (مثل الإعجابات والمتابعة) بحد أقصى 256 تسجيلاً. - مسار دورة الحياة: يعالج سلوك المستخدم التاريخي الطويل (حتى 100,000 تسجيل) باستخدام QFormer لضغط الميزات. المفكّك (Decoder): - يتولّد الترتيب النهائي للفيديوهات بشكل تدريجي بدءًا من رمز البداية (BOS). يتم استخدام مزيج من الخبراء (MoE) في الطبقة الأخيرة لتسهيل الاستدلال السريع. - هناك علاقة تقابلية بين المعرفات المعنية والفيديوهات الحقيقية. يتم التعامل مع مشكلة الجيل غير-valid (عدم وجود فيديو متوافق مع المعرفة المعينة) من خلال تدريب النموذج باستخدام مكافآت تنسيقية (format rewards). التعلم المدعم (Reinforcement Learning) النقطة الأساسية: يتم تكامل عدة أنواع من التغذية الراجعة مثل النقرات والإعجابات ومدة المشاهدة في نقاط تقييم (P-Score) باستخدام شبكة عصبية صغيرة. طريقة التحسين (ECPO): تقدم OneRec تحسينًا على طريقة GRPO من خلال إدخال تقنية early-clipping لمنع الانفجار التدرجي. يتم توليد عدة مسارات توصية للمستخدم، وتصنيفها باستخدام نموذج المكافأة (RM) قبل تدريب النموذج. تأثير الضغط (Squeezing Effect): قد يؤدي تعلم المكافأة إلى تقليص احتمالية توليد بعض المعرفات المعنية الصحيحة إلى مستوى قريب من المعرفات غير الصحيحة. يتم التعامل مع هذا التأثير من خلال إدخال ميكانيزم المكافآت التنسيقية. عملية التدريب التدريب الأولي (Pretraining): يستخدم تمثيلات سلوك المستخدم كمدخلات، ويولد السجلات المرتبطة بالمستخدم كمخرجات. يتم توليد 18 مليار عينة يومياً، مما يعادل 54 مليار رمز في المفكك. التدرب اللاحق (Posttraining): يشمل التدريب عبر الإنترنت باستخدام البيانات الفعلية، التدريب الدقيق عبر الرفض العشوائي، والتعلم المدعم. يتم تصفيّة 50% من العينات ذات أقصر مدة مشاهدة، ثم اختيار 1% من المستخدمين بشكل عشوائي للحصول على عينات للتعلم المدعم. الأداء رغم أن تحسينات النموذج بحتة من OneRec ليست كبيرة، فإن إضافة نموذج المكافأة (RM) يعزز الأداء بشكل كبير. في سياق خدمات الحياة المحلية لـ "كوايشو"، حقق OneRec زيادة بنسبة 21.01% في قيمة المبيعات الإجمالية (GMV)، و17.89% في عدد الطلبات، و18.58% في عدد المستخدمين المشترين، مع زيادة في كفاءة جذب العملاء الجدد بنسبة 23.02%. تقييم الحدث من قبل المختصين يرى الخبراء أن OneRec يمثل خطوة مهمة في تبسيط عمليات التوصية وتحسين كفاءة استخدام الموارد. على الرغم من أن النموذج لا يزال يعتمد جزئياً على النماذج التقليدية في مراحل التحسين، فإنه يوفر حلولاً مبتكرة لمشكلات مثل تقليل الانفجار التدرجي وتوليد التوصيات بشكل أكثر فعالية. يمكن أن يكون هذا النموذج مرجعًا مهمًا للشركات التي تسعى إلى تحسين خدمات التوصية الخاصة بها. نبذة عن "كوايشو" "كوايشو" هي منصة صينية شهيرة للفيديوهات القصيرة، تأسست عام 2011. تتميز المنصة بتوفير محتوى متنوع ومبتكر للمستخدمين، وقد أصبحت من أكبر المنصات في مجال الفيديوهات القصيرة في العالم. تواصل "كوايشو" الاستثمار في التقنيات المتقدمة مثل الذكاء الاصطناعي والتعلم الآلي لتحسين تجربة المستخدم وتوفير محتوى أكثر ملاءمة وتفاعلية.

Related Links