CogAgent: نموذج لغوي بصري للوكلاء الرسومية التفاعلية

يقضي الناس وقتًا كبيرًا على الأجهزة الرقمية من خلال واجهات المستخدم الرسومية (GUIs)، مثل شاشات الكمبيوتر والهواتف الذكية. تواجه النماذج اللغوية الكبيرة (LLMs) مثل ChatGPT صعوبة في فهم التفاعل مع هذه الواجهات، مما يحد من إمكاناتها في زيادة مستويات الأتمتة. في هذا البحث، نقدم CogAgent، وهو نموذج لغوي بصري (VLM) بحجم 18 مليار معلمة متخصص في فهم وتوجيه واجهات المستخدم الرسومية. من خلال استخدام كودرات الصور ذات الدقة المنخفضة والدقة العالية، يدعم CogAgent الإدخال بدقة 1120*1120، مما يمكنه من التعرف على عناصر الصفحة الصغيرة جدًا والنصوص. كنموذج لغوي بصري عام، حقق CogAgent أحدث ما وصلت إليه التقنيات في خمسة مقاييس أسئلة وإجابات غنية بالنصوص وأربعة مقاييس أسئلة وإجابات بصرية لغوية عامة (VQA)، بما في ذلك VQAv2، OK-VQA، Text-VQA، ST-VQA، ChartQA، infoVQA، DocVQA، MM-Vet، وPOPE. باستخدام صور الشاشة فقط كمدخلات، يتفوق CogAgent على الأساليب القائمة على النماذج اللغوية الكبيرة التي تستهلك النصوص المستخرجة من HTML في مهام توجيه واجهات المستخدم الرسومية لكل من الكمبيوتر الشخصي وأنظمة أندرويد -- Mind2Web وAITW -- مما يطور أحدث ما وصلت إليه التقنيات. يمكن الوصول إلى النموذج والرموز البرمجية عبر الرابط https://github.com/THUDM/CogVLM، مع توفر إصدار جديد من CogAgent-9B-20241220 عبر الرابط https://github.com/THUDM/CogAgent.