HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 17 أيام

V-Thinker: التفكير التفاعلي مع الصور

V-Thinker: التفكير التفاعلي مع الصور

الملخص

يظل تمكين النماذج الكبيرة متعددة الوسائط (LMMs) من دمج تفاعلي عميق مع الصور وقادرات التفكير على المدى الطويل تحديًا مستمرًا في هذا المجال. وتسهم التطورات الحديثة في التفكير المتمحور حول الرؤية في استكشاف نموذج واعد يُعرف بـ"التفكير من خلال الصور" للنماذج الكبيرة متعددة الوسائط، ما يُمثّل تحولًا من التفكير المدعوم بالصور إلى التفكير التفاعلي القائم على الصور. وعلى الرغم من أن هذا الإنجاز يمكّن النماذج من التركيز على مناطق صور دقيقة، إلا أن التقدم ما زال محدودًا بسبب مساحات الأدوات البصرية المحدودة وتصميمات العمليات المخصصة للمهام. ولسد هذا الفجوة، نقدّم V-Thinker، وهو مساعد تفكير متعدد الوسائط عام الميادين، يمكّن من التفكير التفاعلي المتمحور حول الرؤية من خلال تعلّم التقويم المُنتَج (end-to-end reinforcement learning). يتكوّن V-Thinker من مكوّنين رئيسيين: (1) "عجلة تطوير البيانات" (Data Evolution Flywheel)، التي تُولّد تلقائيًا وتطور وتحقق مجموعات بيانات التفكير التفاعلي عبر ثلاث أبعاد: التنوّع، الجودة، وصعوبة المهام؛ و(2) "منهاج التدريب البصري التدريجي" (Visual Progressive Training Curriculum)، الذي يبدأ بمحاذاة الإدراك من خلال مراقبة على مستوى النقط (point-level supervision)، ثم يدمج التفكير التفاعلي من خلال إطار تعلّم تقويمي مزدوج المرحلة. علاوةً على ذلك، نقدّم VTBench، وهو معيار مُختَبر بمشاركة خبراء، مُوجّه لمهام التفكير التفاعلي المتمحور حول الرؤية. وتوحي النتائج التجريبية الواسعة بأن V-Thinker يتفوّق باستمرار على النماذج القائمة على LMMs القوية في سيناريوهات التفكير العامة والتفاعليّة، مقدّمًا رؤى قيّمة لتعزيز تطبيقات التفكير التفاعلي القائم على الصور.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
V-Thinker: التفكير التفاعلي مع الصور | الأوراق البحثية | HyperAI