HyperAIHyperAI
منذ 17 أيام

هيدرا: وكيل فائق للتفكير البصري التكويني الديناميكي

Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi
هيدرا: وكيل فائق للتفكير البصري التكويني الديناميكي
الملخص

أظهرت التطورات الحديثة في الاستدلال البصري (VR)، وخاصة بفضل نماذج الرؤية واللغة الكبيرة (VLMs)، وعودًا واعدة، لكنها تتطلب الوصول إلى مجموعات بيانات ضخمة وتعاني من تحديات مثل التكاليف الحسابية العالية وقدرات التعميم المحدودة. ظهرت استراتيجيات الاستدلال البصري التكويني كطرق فعالة؛ ومع ذلك، تعتمد بشكل كبير على المعرفة المشتركة المُشَكَّلة في نماذج اللغة الكبيرة (LLMs) لأداء التخطيط أو الاستدلال أو كليهما، دون أخذ تأثير قراراتها على عملية الاستدلال البصري بعين الاعتبار، ما قد يؤدي إلى أخطاء أو فشل في الإجراءات. ولحل هذه التحديات، نقدم HYDRA، وهي إطار عمل متعدد المراحل للاستدلال البصري التكويني الديناميكي، مصمم لتمكين الاستدلال الموثوق والمتقدم تدريجيًا. يدمج HYDRA ثلاث وحدات أساسية: مُخطِّط، ووكيل تعزيز تعلمي (RL) يعمل كمحكم عقلي، ووحدة استدلال. تستخدم وحدتا المُخطِّط والمستدل نموذج لغة كبير (LLM) لإنشاء عينات تعليمات وكتابة كود قابلة للتنفيذ من التعليمات المختارة، في حين يتفاعل الوكيل المعزز تعلميًا ديناميكيًا مع هاتين الوحدتين، واتخاذ قرارات على مستوى عالٍ بشأن اختيار أفضل عينة تعليمات بناءً على المعلومات المستمدة من الحالة التاريخية المخزنة عبر حلقة تغذية راجعة. تتيح هذه البنية القابلة للتكيف لـ HYDRA تعديل إجراءاتها بناءً على التغذية الراجعة السابقة المستلمة أثناء عملية الاستدلال، مما يؤدي إلى نتائج استدلال أكثر موثوقية ويعزز فعاليتها الشاملة في النهاية. تُظهر منظومتنا أداءً من الدرجة الأولى في مجموعة متنوعة من مهام الاستدلال البصري على أربع مجموعات بيانات شائعة الاستخدام.

هيدرا: وكيل فائق للتفكير البصري التكويني الديناميكي | أحدث الأوراق البحثية | HyperAI