HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين المُدخلات القابلة للقراءة لتعلم قليل العينات متعدد الوسائط البصري-اللغوي

Dongjun Lee Seokwon Song Jihee Suh Joonmyung Choi Sanghyeok Lee Hyunwoo J.Kim

الملخص

في السنوات الأخيرة، أثبتت طريقة تعديل النص المُوجِّه (prompt tuning) فعاليتها في تكييف النماذج البصرية-اللغوية المُدرَّبة مسبقًا لمهام متعددة. تهدف هذه الطرق إلى تكييف النماذج المُدرَّبة مسبقًا من خلال إدخال نصوص مُوجِّهة قابلة للتعلم، مع الحفاظ على ثوابت التدريب المسبق دون تعديل. ومع ذلك، قد تؤثر النصوص القابلة للتعلم على التمثيل الداخلي داخل وحدة الانتباه الذاتي (self-attention)، مما قد يُضعف الأداء وتباينه، ويقلل من القدرة على التعميم، خاصة في البيئات التي تعاني من نقص في البيانات. ولحل هذه المشكلات، نقترح منهجية جديدة تُسمى تحسين النصوص القابلة للقراءة فقط (Read-only Prompt Optimization - RPO). تعتمد RPO على استخدام الانتباه المُغَطَّى (masked attention) لمنع التحول في التمثيل الداخلي داخل النموذج المُدرَّب مسبقًا. علاوةً على ذلك، لتسهيل عملية تحسين RPO، يتم تهيئة النصوص القابلة للقراءة فقط بناءً على الرموز الخاصة (special tokens) في النموذج المُدرَّب مسبقًا. تُظهر التجارب الواسعة أن RPO تتفوّق على CLIP وCoCoOp في التعميم من المهام الأساسية إلى المهام الجديدة (base-to-new generalization) والتمثيل العام للنطاق (domain generalization)، مع إظهار مرونة أفضل. كما تحقق الطريقة المقترحة تعميمًا أفضل في البيئات التي تعاني من نقص شديد في البيانات، مع تحسين كفاءة المعلمات وتقليل التكاليف الحسابية. يُمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/mlvlab/RPO.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp