HyperAIHyperAI

Command Palette

Search for a command to run...

ScreenAI: نموذج رؤية-لغة لفهم واجهة المستخدم والرسوم البيانية

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

الملخص

تلعب واجهات المستخدم على الشاشة (UI) والرسوم البيانية المعلوماتية أدوارًا مهمة في التواصل البشري وتواصل الإنسان مع الآلة. نقدم ScreenAI، وهو نموذج رؤية-لغة متخصص في فهم واجهات المستخدم والرسوم البيانية المعلوماتية. يحسن نموذجنا على هندسة PaLI من خلال استراتيجية التقطيع المرنة لـ pix2struct ويتم تدريبه على مزيج فريد من قواعد البيانات. في صميم هذا المزيج، هناك مهمة جديدة لشرح الشاشة حيث يجب على النموذج تحديد نوع وموقع عناصر واجهة المستخدم. نستخدم هذه التعليقات النصية لوصف الشاشات لنماذج اللغة الكبيرة وإنشاء قواعد بيانات تدريبية للأسئلة والأجوبة (QA)، والملاحة في واجهة المستخدم، والملخصات بشكل أوتوماتيكي وبكميات كبيرة. نجري دراسات تحليل الأثر لإظهار تأثير هذه الخيارات التصميمية. بحجم يصل إلى 5 مليار معلمة فقط، يحقق ScreenAI نتائجًا جديدة رائدة في مجال المهام القائمة على واجهات المستخدم والرسوم البيانية المعلوماتية (Multi-page DocVQA، WebSRC، MoTIF وWidget Captioning)، وأداءً فائقًا في مهام أخرى (Chart QA، DocVQA، InfographicVQA) مقارنة بالنماذج ذات الحجم المماثل. أخيرًا، نطلق ثلاث قواعد بيانات جديدة: واحدة تركّز على مهمة شرح الشاشة واثنتان أخريان تركّزان على الإجابات عن الأسئلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp