HyperAIHyperAI
منذ 11 أيام

MMCTAgent: إطار عمل الوكيل ذي التفكير النقدي متعدد الوسائط للاستدلال البصري المعقد

Somnath Kumar, Yash Gadhia, Tanuja Ganu, Akshay Nambi
MMCTAgent: إطار عمل الوكيل ذي التفكير النقدي متعدد الوسائط للاستدلال البصري المعقد
الملخص

أظهرت التطورات الحديثة في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تحسّنًا كبيرًا في الأداء عند إنجاز المهام التي تدمج بين الرؤية واللغة. ومع ذلك، ما زالت هناك تحديات مستمرة فيما يتعلق بالفهم التفصيلي متعدد الوسائط، وفهم المهام المعقدة، والاستنتاج من المعلومات متعددة الوسائط. يقدّم هذا البحث إطار عمل جديد يُدعى MMCTAgent، وهو عامل تفكير نقدي متعدد الوسائط مصمم لمعالجة القيود الجوهرية التي تواجه النماذج الحالية من MLLMs في المهام المعقدة للاستنتاج البصري. مستوحى من العمليات المعرفية البشرية وعملية التفكير النقدي، يقوم MMCTAgent بتحليل متكرر للمعلومات متعددة الوسائط، وتفكيك الاستفسارات، ووضع استراتيجيات، وتطوير تفكيره بشكل ديناميكي. علاوة على ذلك، يدمج MMCTAgent عناصر التفكير النقدي مثل التحقق من الإجابات النهائية والتأمل الذاتي من خلال نهج جديد يعرّف ناقدًا قائمًا على الرؤية ويحدد معايير تقييم محددة حسب المهمة، مما يعزز قدراته في اتخاذ القرار. وقد أظهرت تقييمات صارمة عبر مجموعة متنوعة من معايير فهم الصور والفيديوهات أن MMCTAgent (سواء مع الناقد أو بدونه) يتفوق على النماذج الأساسية من MLLMs، وكذلك على المسارات الأخرى المُزودة بأدوات.

MMCTAgent: إطار عمل الوكيل ذي التفكير النقدي متعدد الوسائط للاستدلال البصري المعقد | أحدث الأوراق البحثية | HyperAI