HyperAI

Visual Instruction Following

"المتابعة البصرية للتعليمات" هي مهمة متعددة الوسائط تهدف إلى تمكين الآلات من فهم وتنفيذ التعليمات اللغوية الطبيعية بناءً على المدخلات البصرية. هذه المهمة تدمج تقنيات الرؤية الحاسوبية ومعالجة اللغة الطبيعية، حيث تقوم بتحديد وتفسير أوامر المستخدم بدقة من خلال تحليل المعلومات البصرية من الصور أو الفيديوهات، مما يحقق تفاعلًا فعالًا بين الإنسان والآلة. هدفها هو تعزيز مرونة ودقة تنفيذ المهام من قبل الآلات في بيئات معقدة، ولديها قيمة تطبيقية واسعة، مثل الملاحة الروبوتية الذكية، العمليات الآلية، ومساعدة الأشخاص ذوي الإعاقة البصرية.