الملخص

تلعب واجهات المستخدم على الشاشة (UI) والرسوم البيانية المعلوماتية أدوارًا مهمة في التواصل البشري وتواصل الإنسان مع الآلة. نقدم ScreenAI، وهو نموذج رؤية-لغة متخصص في فهم واجهات المستخدم والرسوم البيانية المعلوماتية. يحسن نموذجنا على هندسة PaLI من خلال استراتيجية التقطيع المرنة لـ pix2struct ويتم تدريبه على مزيج فريد من قواعد البيانات. في صميم هذا المزيج، هناك مهمة جديدة لشرح الشاشة حيث يجب على النموذج تحديد نوع وموقع عناصر واجهة المستخدم. نستخدم هذه التعليقات النصية لوصف الشاشات لنماذج اللغة الكبيرة وإنشاء قواعد بيانات تدريبية للأسئلة والأجوبة (QA)، والملاحة في واجهة المستخدم، والملخصات بشكل أوتوماتيكي وبكميات كبيرة. نجري دراسات تحليل الأثر لإظهار تأثير هذه الخيارات التصميمية. بحجم يصل إلى 5 مليار معلمة فقط، يحقق ScreenAI نتائجًا جديدة رائدة في مجال المهام القائمة على واجهات المستخدم والرسوم البيانية المعلوماتية (Multi-page DocVQA، WebSRC، MoTIF وWidget Captioning)، وأداءً فائقًا في مهام أخرى (Chart QA، DocVQA، InfographicVQA) مقارنة بالنماذج ذات الحجم المماثل. أخيرًا، نطلق ثلاث قواعد بيانات جديدة: واحدة تركّز على مهمة شرح الشاشة واثنتان أخريان تركّزان على الإجابات عن الأسئلة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

ScreenAI: نموذج رؤية-لغة لفهم واجهة المستخدم والرسوم البيانية

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ScreenAI: نموذج رؤية-لغة لفهم واجهة المستخدم والرسوم البيانية

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ScreenAI: نموذج رؤية-لغة لفهم واجهة المستخدم والرسوم البيانية

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters