Command Palette
Search for a command to run...
مايني-أو3: توسيع أنماط الاستدلال ودورات التفاعل لبحث بصري
Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

الملخص
أحرزت النماذج الكبيرة متعددة الوسائط تقدماً حديثاً من خلال الاستفادة من الأدوات القائمة على الصور مع التعلم بالتعزيز لمعالجة المشكلات البصرية. ومع ذلك، تُظهر النهج المفتوحة المصدر الحالية نمطاً مُتكرراً في الاستدلال، وتُسمح فقط بعدد محدود من جلسات التفاعل، ما يجعلها غير كافية للمهام الصعبة التي تتطلب استكشافاً عبر التجربة والخطأ. في هذا العمل، نعالج هذه القيود من خلال توسيع التفاعلات القائمة على الأدوات، ونُقدّم نظام "ميني-أو3" (Mini-o3)، الذي يُنفّذ استدلالاً عميقاً متعدد المراحل — تمتد لعشرات الخطوات — ويحقق أداءً متفوّقاً على مستوى الحالة الحالية في مهام البحث البصري الصعبة. يتكون وصفنا لاستنساخ السلوك المماثل لنموذج OpenAI o3 من ثلاثة عناصر أساسية. أولاً، نُنشئ مجموعة بيانات "الاستقصاء البصري" (Visual Probe Dataset)، وهي مجموعة من الآلاف من المشكلات البصرية الصعبة المصممة لتعزيز الاستدلال الاستكشافي. ثانيًا، نطوّر خط أنابيب جمع بيانات تكراري لاستخلاص مسارات ابتدائية (cold-start trajectories) تُظهر أنماط استدلال متنوعة، تشمل البحث بالعمق (depth-first search)، والتجربة والخطأ، وصيانة الهدف. ثالثًا، نقترح استراتيجية تمويه المراحل الزائدة (over-turn masking) التي تمنع عقوبة الاستجابات التي تصل إلى الحد الأقصى من عدد المراحل (أي تلك التي تصل إلى الحد الأقصى المسموح به من التفاعلات) أثناء التعلم بالتعزيز، مما يُوازن بين الكفاءة في مرحلة التدريب وقابلية التوسع في مرحلة الاختبار. وعلى الرغم من تدريب النموذج بحد أقصى لا يتجاوز ست مراحل تفاعلية، فإن النموذج يُنتج مسارات تتفاعل بشكل طبيعي على عشرات المراحل عند التقييم، مع تحسن في الدقة كلما زاد عدد المراحل. وتوحي التجارب الواسعة بأن "ميني-أو3" يُنتج أنماطاً غنية من الاستدلال ومسارات تفكير عميقة، ويُسهم بشكل فعّال في حل المشكلات البصرية الصعبة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.