HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

TempSamp-R1: عينة زمنية فعّالة مع التدريب المعزز للدقة لنماذج لغة الفيديو

Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

TempSamp-R1: عينة زمنية فعّالة مع التدريب المعزز للدقة لنماذج لغة الفيديو

الملخص

يقدم هذا البحث إطار تدريب مُحسَّن بالتعزيز الجديد المسمى TempSamp-R1، المصمم لتحسين كفاءة تكييف النماذج الكبيرة متعددة الوسائط للغة (MLLMs) في مهام تحديد الزمن في الفيديو. نُظهر أن الطرق الحالية المعتمدة على التعلم بالتعزيز، مثل خوارزمية تحسين السياسة النسبية للمجموعات (GRPO)، تعتمد على عينة من السياسة (on-policy sampling) لتحديث السياسة. ومع ذلك، في المهام التي تتميز بمساحة بحث زمنية واسعة، يصبح هذا النهج غير فعّال ويُعاني من قيود أداء، نظرًا لصعوبة اكتشاف حلول دقيقة زمنيًا. وللتغلب على هذه القيود، يستخدم TempSamp-R1 التصنيفات الحقيقية (ground-truth annotations) كإشراف خارج السياسة (off-policy supervision) لتوفير توجيه دقيق زمنيًا، مما يُعوّض بشكل فعّال الندرة والانحراف الزمني الناتجين عن الحلول المُستمدة من السياسة. ولتعزيز استقرار التدريب وتقليل التباين في تحديثات المكافآت، يقدّم TempSamp-R1 طريقة حساب مُتفاوتة غير خطية (non-linear soft advantage) تقوم بتحويل مكافآت التغذية الراجعة ديناميكيًا من خلال تحويل غير متماثل. وباستخدام نموذج تدريب مدمج يعتمد على سلسلة التفكير (Chain-of-Thought, CoT)، يُحسّن TempSamp-R1 نموذجًا موحدًا واحدًا لدعم كل من نمطي الاستدلال: مع سلسلة تفكير (CoT) وبدونها (non-CoT)، مما يمكّن من التعامل بكفاءة مع الاستفسارات التي تختلف في تعقيد التفكير. تُظهر النتائج التجريبية أن TempSamp-R1 يتفوّق على النماذج القائمة على GRPO، ويُحقّق أداءً جديدًا على مستوى الحالة الراهنة (state-of-the-art) في مجموعات البيانات القياسية: Charades-STA (R1@0.7: 52.9%، بزيادة 2.7%)، ActivityNet Captions (R1@0.5: 56.0%، بزيادة 5.3%)، وQVHighlights (mAP: 30.0%، بزيادة 3.0%). علاوةً على ذلك، تُظهر TempSamp-R1 قدرات متميزة على التعميم في حالات البيانات المحدودة (few-shot generalization). الكود المصدري: https://github.com/HVision-NKU/TempSamp-R1

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp