HyperAIHyperAI

Command Palette

Search for a command to run...

أقل هو أكثر: الطبقات الخطية على ميزات CLIP كنموذج قوي لـ VizWiz

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

الملخص

تعاني البنية الحالية للمهام متعددة الوسائط، مثل الإجابة على الأسئلة البصرية، من تعقيدها العالي. ونتيجة لذلك، تُعد هذه البنية صعبة التدريب وتحتاج إلى موارد حوسبة عالية. ولحل هذه المشكلات، نقدم بنية قائمة على CLIP لا تتطلب أي تعديل دقيق (fine-tuning) لاستخراج الميزات. نستخدم فئة تصنيف خطية بسيطة على الميزات المُجمعة من مُشفّر الصورة ومُشفّر النص. أثناء التدريب، نُضيف خسارة مساعدة تعمل على أنواع الإجابات. ثم تُستخدم النتيجة الناتجة كمُفتاح انتباه (attention gate) لاختيار فئة الإجابة. وفي مسابقة الإجابة على الأسئلة البصرية VizWiz 2022، حققنا دقة قدرها 60.15٪ في المهمة 1: توقع الإجابة على سؤال بصري، ودرجة AP قدرها 83.78٪ في المهمة 2: توقع إمكانية إجابة سؤال بصري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp