HyperAIHyperAI
منذ 4 أيام

MMR1: تحسين التفكير متعدد الوسائط من خلال أخذ العينات المُدركة للتباين والمصادر المفتوحة

Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
MMR1: تحسين التفكير متعدد الوسائط من خلال أخذ العينات المُدركة للتباين والمصادر المفتوحة
الملخص

أحرزت النماذج الكبيرة متعددة الوسائط للتفكير تقدماً سريعاً، لكن تطورها يعاني من قيود رئيسية متمثلة في غياب بيانات طويلة سلسلة التفكير (CoT) مفتوحة المصدر، وذات حجم كبير وعالية الجودة، بالإضافة إلى عدم استقرار خوارزميات التعلم بالتعزيز (RL) أثناء التدريب اللاحق. وتشتهر منظومة تحسين السياسة النسبية المجموعة (GRPO)، التي تمثل الإطار القياسي لتحسين التدريب بالتعلم بالتعزيز، بانعدام التدرجات عند انخفاض تباين المكافآت، مما يُضعف إشارات التحسين ويؤثر سلباً على التقارب. تُقدّم هذه الدراسة ثلاث إسهامات رئيسية: (1) نقترح استراتيجية اختيار بيانات تُسمى "العينة المُدركة للتباين" (VAS)، والتي تُوجَّه بواسطة "مقياس تعزيز التباين" (VPS)، وتجمع بين تباين النتائج وتعدد المسارات لتعزيز تباين المكافآت وتحقيق استقرار في تحسين السياسة. (2) نُطلق مجموعات بيانات كبيرة ومُختارة بعناية تتضمن حوالي 1.6 مليون نقطة بيانات أولية طويلة سلسلة التفكير (CoT) وحوالي 15 ألف زوج من الأسئلة والأجوبة المُدرَّبة بالتعلم بالتعزيز (RL QA)، مصممة لضمان الجودة، والصعوبة، والتباين، إلى جانب بنية رمزية كاملة القابلة للتكرار لتدريب نموذج من البداية إلى النهاية. (3) نُصدِر مفتوح المصدر عائلة من النماذج متعددة الوسائط للتفكير بمقاييس متعددة، مما يُسهم في إرساء قواعد معيارية لصالح المجتمع البحثي. وقد أظهرت التجارب على معايير التفكير الرياضي فعالية كل من البيانات المُختارة والخوارزمية المقترحة VAS. كما تُقدّم الدراسات التحليلية الشاملة والتحليلات التفصيلية رؤى أعمق حول إسهامات كل مكوّن. بالإضافة إلى ذلك، قمنا بتأسيس نظريًا أن تباين المكافأة يُحدّد حدًا أدنى لحجم التدرج المتوقع للسياسة، حيث يُعدّ VAS آلية عملية لتحقيق هذا الضمان. يمكن الوصول إلى الرموز البرمجية والبيانات والنقاط المحفوظة عبر الرابط التالي: https://github.com/LengSicong/MMR1.