HyperAIHyperAI

Command Palette

Search for a command to run...

MMCTAgent: إطار عمل الوكيل ذي التفكير النقدي متعدد الوسائط للاستدلال البصري المعقد

Somnath Kumar Yash Gadhia Tanuja Ganu Akshay Nambi

الملخص

أظهرت التطورات الحديثة في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تحسّنًا كبيرًا في الأداء عند إنجاز المهام التي تدمج بين الرؤية واللغة. ومع ذلك، ما زالت هناك تحديات مستمرة فيما يتعلق بالفهم التفصيلي متعدد الوسائط، وفهم المهام المعقدة، والاستنتاج من المعلومات متعددة الوسائط. يقدّم هذا البحث إطار عمل جديد يُدعى MMCTAgent، وهو عامل تفكير نقدي متعدد الوسائط مصمم لمعالجة القيود الجوهرية التي تواجه النماذج الحالية من MLLMs في المهام المعقدة للاستنتاج البصري. مستوحى من العمليات المعرفية البشرية وعملية التفكير النقدي، يقوم MMCTAgent بتحليل متكرر للمعلومات متعددة الوسائط، وتفكيك الاستفسارات، ووضع استراتيجيات، وتطوير تفكيره بشكل ديناميكي. علاوة على ذلك، يدمج MMCTAgent عناصر التفكير النقدي مثل التحقق من الإجابات النهائية والتأمل الذاتي من خلال نهج جديد يعرّف ناقدًا قائمًا على الرؤية ويحدد معايير تقييم محددة حسب المهمة، مما يعزز قدراته في اتخاذ القرار. وقد أظهرت تقييمات صارمة عبر مجموعة متنوعة من معايير فهم الصور والفيديوهات أن MMCTAgent (سواء مع الناقد أو بدونه) يتفوق على النماذج الأساسية من MLLMs، وكذلك على المسارات الأخرى المُزودة بأدوات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp