HyperAIHyperAI
منذ 9 أيام

ViperGPT: الاستنتاج البصري عبر تنفيذ بايثون للاستدلال

Dídac Surís, Sachit Menon, Carl Vondrick
ViperGPT: الاستنتاج البصري عبر تنفيذ بايثون للاستدلال
الملخص

الإجابة على الأسئلة البصرية هي مهمة معقدة تتطلب معالجة بصرية واستنتاجًا منطقيًا. تُعد النماذج النهائية-end-to-end، التي تمثل النهج السائد في هذه المهمة، غير قادرة على التمييز الصريح بين العمليتين، مما يحد من قابلية التفسير والقدرة على التعميم. ويشكل تعلُّم البرامج المتعددة الوحدات بديلًا واعدًا، لكنه واجه صعوبات كبيرة بسبب تعقيد تعلُّم البرامج والوحدات معًا في آن واحد. نقدِّم ViperGPT، وهي إطار عمل يستخدم نماذج إنشاء الشيفرة البرمجية لدمج نماذج الرؤية واللغة في وحدات فرعية لإنتاج نتيجة لأي سؤال. يستخدم ViperGPT واجهة برمجة تطبيقات (API) مقدمة للوصول إلى الوحدات المتاحة، ويُكوِّنها عن طريق إنشاء شفرة بايثون يتم تنفيذها لاحقًا. يعتمد هذا النهج البسيط على عدم الحاجة إلى تدريب إضافي، ويحقق نتائج متقدمة على مستوى العالم في مجموعة متنوعة من المهام البصرية المعقدة.

ViperGPT: الاستنتاج البصري عبر تنفيذ بايثون للاستدلال | أحدث الأوراق البحثية | HyperAI