HyperAIHyperAI
منذ 16 أيام

WeThink: نحو الاستدلال البصري-اللغوي العام من خلال التعلم المعزز

Yang, Jie, Ma, Feipeng, Wang, Zitian, Yin, Dacheng, Rong, Kang, Rao, Fengyun, Zhang, Ruimao
WeThink: نحو الاستدلال البصري-اللغوي العام من خلال التعلم المعزز
الملخص

بالاعتماد على النجاح الذي حققته نماذج الاستدلال القائمة على النص مثل DeepSeek-R1، يُعدّ توسيع هذه القدرات لتشمل الاستدلال متعدد الوسائط واعدًا جدًا. وعلى الرغم من المحاولات الحديثة لتطبيق نماذج التدريب بالتحفيز العشوائي (RL) من نوع DeepSeek-R1 على النماذج الكبيرة للغة متعددة الوسائط (MLLM)، مع التركيز على مهام متخصصة مثل الرياضيات والفهم البصري، تبقى هناك سؤال حاسم: كيف يمكن تحقيق الاستدلال البصري-اللغوي العام من خلال التعلم بالتحفيز؟ لمعالجة هذا التحدي، قمنا بثلاثة مبادرات رئيسية: (1) خط أنابيب جديد لتصنيع أسئلة وأجوبة متعددة الوسائط (QA) قائم على التوسع، يُولِّد تلقائيًا أزواج أسئلة وأجوبة واعية بالسياق ومركّزة على الاستدلال مباشرةً من الصور المقدمة. (2) مجموعة بيانات مفتوحة المصدر تُسمى WeThink، تحتوي على أكثر من 120 ألف زوج من الأسئلة والأجوبة متعددة الوسائط، مع توثيق مسارات الاستدلال، تم جمعها من 18 مصدرًا متنوعًا من البيانات، وتغطي مجالات متنوعة من الأسئلة. (3) استكشاف شامل للتعلم بالتحفيز على مجموعتنا، يتضمن آلية مختلطة للتحفيز تدمج التحقق القائم على القواعد مع التقييم القائم على النموذج، بهدف تحسين كفاءة تدريب التعلم بالتحفيز عبر مجالات المهام المختلفة. وقمنا بتجريب النتائج على 14 معيارًا متنوعًا لـ MLLM، وأظهرنا أن مجموعة بيانات WeThink تُحسّن الأداء بشكل كبير، بدءًا من الاستدلال الرياضي وحتى المهام متعددة الوسائط العامة المتنوعة. علاوةً على ذلك، أظهرنا أن خط أنابيب البيانات التلقائي يمكنه زيادة تنوع البيانات باستمرار، مما يسهم في تحسين أداء النموذج بشكل مستمر.