HyperAI
منذ 2 أيام

GLM-4.1V-التفكير: نحو تعدد الأوضاع في الاستدلال باستخدام التعلم التعزيزي القابل للتوسع

Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi
GLM-4.1V-التفكير: نحو تعدد الأوضاع في الاستدلال باستخدام التعلم التعزيزي القابل للتوسع
الملخص

نقدم نموذج GLM-4.1V-Thinking، وهو نموذج رؤية-لغة (VLM) مصمم لتعزيز الفهم والتفكير متعدد الوسائط للأغراض العامة. في هذا التقرير، نشارك النتائج الرئيسية التي توصلنا إليها في تطوير إطار التدريب المركز على التفكير. أولاً، قمنا بتطوير نموذج أساسي للرؤية قادر على تحقيق إمكانات كبيرة من خلال التدريب الأولي على نطاق واسع، مما يمكن أن يعتبر الحد الأعلى لأداء النموذج النهائي. ثم اقترحنا استخدام التعلم التعزيزي مع العينة المنهاجية (RLCS) لاستكشاف الإمكانات الكاملة للنموذج، مما أدى إلى تعزيز القدرات الشاملة عبر مجموعة متنوعة من المهام، بما في ذلك حل المشكلات العلمية والتكنولوجية والهندسية والرياضية (STEM)، وفهم الفيديو، وتمييز المحتوى، والبرمجة، والتثبيت الأرضي، والوكلاء المستندة إلى واجهة المستخدم الرسومية (GUI)، وفهم الوثائق الطويلة. لقد جعلنا نموذج GLM-4.1V-9B-Thinking متاحًا للمصدر المفتوح، والذي يحقق أفضل الأداء بين النماذج ذات الحجم المماثل. في تقييم شامل شمل 28 مقاييس عامة، فاق نموذجنا Qwen2.5-VL-7B في几乎所有任务,并在18个基准测试中相对于显著更大的Qwen2.5-VL-72B实现了相当或更优的性能。值得注意的是,GLM-4.1V-9B-Thinking在包括长文档理解和STEM推理在内的具有挑战性的任务上也表现出与封闭源模型(如GPT-4o)竞争或更优的性能,进一步强调了其强大的能力。代码、模型和更多信息已在此https URL发布。 修正后的翻译: نقدم نموذج GLM-4.1V-Thinking، وهو نموذج رؤية-لغة (VLM) مصمم لتعزيز الفهم والتفكير متعدد الوسائط للأغراض العامة. في هذا التقرير، نشارك النتائج الرئيسية التي توصلنا إليها في تطوير إطار التدريب المركز على التفكير. أولاً، قمنا بتطوير نموذج أساسي للرؤية قادر على تحقيق إمكانات كبيرة من خلال التدريب الأولي على نطاق واسع، مما يمكن أن يعتبر الحد الأعلى لأداء النموذج النهائي. ثم اقترحنا استخدام التعلم التعزيزي مع العينة المنهاجية (Reinforcement Learning with Curriculum Sampling - RLCS) لاستكشاف الإمكانات الكاملة للنموذج، مما أدى إلى تعزيز القدرات الشاملة عبر مجموعة متنوعة من المهام، بما في ذلك حل المشكلات العلمية والتكنولوجية والهندسية والرياضية (STEM)، وفهم الفيديو، وتمييز المحتوى، والبرمجة، والتثبيت الأرضي (grounding)، والأجهزة المستندة إلى واجهة المستخدم الرسومية (GUI-based agents)، وفهم الوثائق الطويلة. لقد جعلنا نموذج GLM-4.1V-9B-Thinking متاحًا للمصدر المفتوح، والذي يحقق أفضل الأداء بين النماذج ذات الحجم المماثل. في تقييم شامل شمل 28 مقاييس عامة، فاق نموذجنا Qwen2.5-VL-7B في معظم المهام وأظهر أداءً مكافئًا أو أفضل في 18 مقاييس مقارنة بنموذج Qwen2.5-VL-72B الأكبر بكثير حجمًا. بشكل خاص,GLM-4.1V-9B-Thinking在包括长文档理解和STEM推理在内的具有挑战性的任务上也表现出与封闭源模型(如GPT-4o)竞争或更优的性能,进一步强调了其强大的能力。代码、模型和更多信息已在此https URL发布。 再次修正后的翻译: نقدم نموذج GLM-4.1V-Thinking، وهو نموذج رؤية-لغة (VLM) مصمم لتعزيز الفهم والتفكير متعدد الوسائط للأغراض العامة. في هذا التقرير,نشترك النتائج الرئيسية التي توصلنا إليها في تطوير إطار التدريب المركز على التفكير. أولاً,قمنا بتطوير نموذج أساسي للرؤية قادر على تحقيق إمكانات كبيرة من خلال التدريب الأولي على نطاق واسع,وهو ما يمكن اعتباره الحد الأعلى لأداء النموذج النهائي تقريبًا. ثم اقترحنا استخدام التعلم التعزيزي مع العينة المنهاجية (التعلم التعزيزي مع العينة المنهاجية - RLCS) لاستكشاف الإمكانات الكاملة للنموذج,ما أدى إلى تعزيز القدرات الشاملة عبر مجموعة متنوعة من المهام,بما في ذلك حل المشكلات العلمية والتكنولوجياوية والهندسية والرياضية (STEM),وفهم الفيديو,وتمييز المحتوى,والبرمجة,وتثبيت السياق (grounding)،والوكلاء المستندة إلى واجهة المستخدم الرسومية (الوكلاء المستندة إلى واجهة المستخدم الرسومية - GUI-based agents),وفهم الوثائق الطويلة. لقد جعلنا نموذج GLM-4.1V-9B-Thinking متاحًا للمصدر المفتوح ، والذي يحقق أفضل الأداء بين النماذج ذات الحجم المتقارب تقريبًا . وفي تقييم شامل شمل 28 مقاييس عامة ، فاق نموذجنا Qwen2.5-VL-7B تقريبًا في جميع المهام وأظهر أداءً مشابهًا أو أفضل في 18 مقاييس مقارنة بنموذج Qwen2.5-VL-72B الأكثر حجمًا بكثير . وبشكل خاص ، حقق GLM-4.1V-9B-Thinking أداءً تنافسيًا أو أفضل مقارنة بالأنظمة ذات المصدر الغير مفتوح مثل GPT-4o في مهمات صعبة مثل فهم الوثائق الطويلة والاستدلال العلمي والتكنولوجي والهندسي والرياضي (STEM reasoning),وهذا يؤكد قدراته القوية بشكل أكبر. الرمز البرمجي والنمازل والمعلومات الإضافية تم إطلاقها عبر الرابط التالي: [this https URL].