ScreenAI: نموذج رؤية-لغة لفهم واجهة المستخدم والرسوم البيانية

تلعب واجهات المستخدم على الشاشة (UI) والرسوم البيانية المعلوماتية أدوارًا مهمة في التواصل البشري وتواصل الإنسان مع الآلة. نقدم ScreenAI، وهو نموذج رؤية-لغة متخصص في فهم واجهات المستخدم والرسوم البيانية المعلوماتية. يحسن نموذجنا على هندسة PaLI من خلال استراتيجية التقطيع المرنة لـ pix2struct ويتم تدريبه على مزيج فريد من قواعد البيانات. في صميم هذا المزيج، هناك مهمة جديدة لشرح الشاشة حيث يجب على النموذج تحديد نوع وموقع عناصر واجهة المستخدم. نستخدم هذه التعليقات النصية لوصف الشاشات لنماذج اللغة الكبيرة وإنشاء قواعد بيانات تدريبية للأسئلة والأجوبة (QA)، والملاحة في واجهة المستخدم، والملخصات بشكل أوتوماتيكي وبكميات كبيرة. نجري دراسات تحليل الأثر لإظهار تأثير هذه الخيارات التصميمية. بحجم يصل إلى 5 مليار معلمة فقط، يحقق ScreenAI نتائجًا جديدة رائدة في مجال المهام القائمة على واجهات المستخدم والرسوم البيانية المعلوماتية (Multi-page DocVQA، WebSRC، MoTIF وWidget Captioning)، وأداءً فائقًا في مهام أخرى (Chart QA، DocVQA، InfographicVQA) مقارنة بالنماذج ذات الحجم المماثل. أخيرًا، نطلق ثلاث قواعد بيانات جديدة: واحدة تركّز على مهمة شرح الشاشة واثنتان أخريان تركّزان على الإجابات عن الأسئلة.