الملخص

يظل تمكين النماذج الكبيرة متعددة الوسائط (LMMs) من دمج تفاعلي عميق مع الصور وقادرات التفكير على المدى الطويل تحديًا مستمرًا في هذا المجال. وتسهم التطورات الحديثة في التفكير المتمحور حول الرؤية في استكشاف نموذج واعد يُعرف بـ"التفكير من خلال الصور" للنماذج الكبيرة متعددة الوسائط، ما يُمثّل تحولًا من التفكير المدعوم بالصور إلى التفكير التفاعلي القائم على الصور. وعلى الرغم من أن هذا الإنجاز يمكّن النماذج من التركيز على مناطق صور دقيقة، إلا أن التقدم ما زال محدودًا بسبب مساحات الأدوات البصرية المحدودة وتصميمات العمليات المخصصة للمهام. ولسد هذا الفجوة، نقدّم V-Thinker، وهو مساعد تفكير متعدد الوسائط عام الميادين، يمكّن من التفكير التفاعلي المتمحور حول الرؤية من خلال تعلّم التقويم المُنتَج (end-to-end reinforcement learning). يتكوّن V-Thinker من مكوّنين رئيسيين: (1) "عجلة تطوير البيانات" (Data Evolution Flywheel)، التي تُولّد تلقائيًا وتطور وتحقق مجموعات بيانات التفكير التفاعلي عبر ثلاث أبعاد: التنوّع، الجودة، وصعوبة المهام؛ و(2) "منهاج التدريب البصري التدريجي" (Visual Progressive Training Curriculum)، الذي يبدأ بمحاذاة الإدراك من خلال مراقبة على مستوى النقط (point-level supervision)، ثم يدمج التفكير التفاعلي من خلال إطار تعلّم تقويمي مزدوج المرحلة. علاوةً على ذلك، نقدّم VTBench، وهو معيار مُختَبر بمشاركة خبراء، مُوجّه لمهام التفكير التفاعلي المتمحور حول الرؤية. وتوحي النتائج التجريبية الواسعة بأن V-Thinker يتفوّق باستمرار على النماذج القائمة على LMMs القوية في سيناريوهات التفكير العامة والتفاعليّة، مقدّمًا رؤى قيّمة لتعزيز تطبيقات التفكير التفاعلي القائم على الصور.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار