HyperAIHyperAI
منذ 16 أيام

ربط بين مشغلات الرؤية واللغة: تعديل كفاءة من حيث المعلمات لتقسيم الصور المرجعية

Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin Li
ربط بين مشغلات الرؤية واللغة: تعديل كفاءة من حيث المعلمات لتقسيم الصور المرجعية
الملخص

لقد اكتسبت التخصيص الفعّال للبارامترات (PET) اهتمامًا متزايدًا نظرًا لخفض عدد البارامترات مع الحفاظ على الأداء وتقديم توفير أفضل في الموارد الهardware، لكن قلة من الدراسات استقصت مهام التنبؤ الكثيف أو التفاعل بين الوسائط. في هذه الورقة، نقوم بدراسة لمشكلات التخصيص الفعّال في مهمة التجزئة الصورية المرتبطة بالإشارة. نقترح مُعدّلًا جديدًا يُدعى Bridger لتسهيل تبادل المعلومات عبر الوسائط وإدخال معلومات مخصصة للمهمة إلى النموذج المُدرّب مسبقًا. كما صممنا أيضًا فكّ شفرة خفيف الوزن مخصص لتجزئة الصور. تحقق طريقة عملنا أداءً مُComparable أو أفضل بتحديثات بسيطة جدًا في البارامترات الأساسية، تتراوح بين 1.61% إلى 3.38%، عند تقييمها على معايير صعبة. يُمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/kkakkkka/ETRIS}.

ربط بين مشغلات الرؤية واللغة: تعديل كفاءة من حيث المعلمات لتقسيم الصور المرجعية | أحدث الأوراق البحثية | HyperAI