HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 23 أيام

MM-HELIX: تعزيز الاستدلال التأملي متعدد الوسائط الطويل السلسلة من خلال منصة شاملة وتحسين سياسة هجينة متكيفة

MM-HELIX: تعزيز الاستدلال التأملي متعدد الوسائط الطويل السلسلة من خلال منصة شاملة وتحسين سياسة هجينة متكيفة

الملخص

على الرغم من أن النماذج الكبيرة متعددة الوسائط (MLLMs) الحالية أظهرت كفاءة في مهام الاستنتاج مثل الرياضيات والمنطق، إلا أن قدرتها على الاستنتاج التأملي المتسلسل الطويل – وهو شرط أساسي لحل المشكلات المعقدة في العالم الحقيقي – لا يزال يُعد مجالًا مُستكشَفًا بشكل محدود. في هذا العمل، نقوم أولًا بدراسة تجريبية واسعة لتقييم هذه القدرة. وباستخدام محرك توليد بيانات مُصمم بعناية، نُنشئ MM-HELIX، وهو معيار متعدد الوسائط يتضمن 1,260 عينة من 42 مهمة صناعية صعبة تتطلب تفكيرًا تكراريًا وعودة للخلف (backtracking). تُظهر النتائج التجريبية على هذا المعيار أن النماذج الحالية من MLLMs تعاني من عجز واضح في الاستنتاج التأملي الطويل. وللتغلب على هذه القيود، نُولِّد بيانات ما بعد التدريب، ونستكشف نماذج تعلم جديدة لاستغلال هذه البيانات. نبدأ بتطوير نموذج إنتاج الاستجابات المُستَلَّة خطوة بخطوة (Step-Elicited Response Generation)، والذي يُنتج MM-HELIX-100K، وهي مجموعة بيانات كبيرة بحجم 100 ألف مثال عالي الجودة من سلسلة تفكير تأملي، تُستخدم في مرحلة تعديل التعليم حسب التعليمات. وبما أن التعلم بالتعزيز القياسي يفشل في المهام المعقدة بسبب إشارات المكافأة النادرة، والتذكر الكارثي بعد التدريب المُوجَّه، نقترح استراتيجية تدريب جديدة تُسمى "تحسين السياسة الهجينة المُتكيف (Adaptive Hybrid Policy Optimization - AHPO)"، والتي تُوحِّد ديناميكيًا بين الإشراف الخارجي (offline supervision) والتحسين المباشر (online optimization) في مرحلة واحدة. تُمكّن هذه الاستراتيجية النموذج من التعلم من بيانات الخبراء عند ندرة المكافآت، وتمكّنه من إجراء استكشاف مستقل بمجرد إتقانه للمهمة. عند تطبيقها على النموذج الأساسي Qwen2.5-VL-7B، حققت طريقة العمل لدينا تحسنًا في الدقة بنسبة +18.6٪ على معيار MM-HELIX، وظَهَرَ أداءً عامًا قويًا مع مكسب متوسط قدره +5.7٪ في المهام العامة المتعلقة بالرياضيات والمنطق. يُظهر هذا العمل أن الاستنتاج التأملي في النماذج متعددة الوسائط يمكن تعلّمه وتوسيع نطاقه بفعالية، مما يُمهد الطريق لتطوير نماذج MLLMs أكثر قدرة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MM-HELIX: تعزيز الاستدلال التأملي متعدد الوسائط الطويل السلسلة من خلال منصة شاملة وتحسين سياسة هجينة متكيفة | الأوراق البحثية | HyperAI