HyperAIHyperAI
منذ 17 أيام

GeminiFusion: دمج متعدد الوسائط فعّال على مستوى البكسل لمحولات الرؤية

Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen
GeminiFusion: دمج متعدد الوسائط فعّال على مستوى البكسل لمحولات الرؤية
الملخص

أظهرت نماذج التحويل العابر للوحدات (Cross-modal transformers) تفوقًا في مهام الرؤية المختلفة من خلال دمج فعّال بين الوحدات المختلفة. يقدّم هذا البحث أول تقييم نقدي لطرق استبدال الرموز السابقة التي تستبدل الرموز الأقل إفادة بسمات عابرة للوحدات، ويُظهر أن الطرق القائمة على الاستبدال تُظهر أداءً أضعف مقارنةً بآليات الانتباه العابر للوحدات، رغم أن الطلب الحسابي العالي لهذه الآليات يُحد من استخدامها مع التسلسلات الطويلة. وللتغلب على التحديات الحسابية، نقترح نموذج "GeminiFusion"، وهو نهج يعتمد على الدمج على مستوى البكسل، ويستفيد من التمثيلات العابرة للوحدات المتماشية. يتميّز GeminiFusion بدمجه الأنيق للانتباه داخل الوحدة والانتباه بين الوحدات، حيث يُدمج ديناميكيًا المعلومات المكملة عبر الوحدات المختلفة. نستخدم ضوضاء تكيفية حسب الطبقة لضبط تفاعلها بشكل تلقائي على مستوى كل طبقة، مما يُحقق عملية دمج متوازنة. ويُذكَر أن GeminiFusion يحافظ على تعقيد خطي بالنسبة لعدد الرموز المدخلة، مما يضمن كفاءة تشغيل هذا الإطار المتعدد الوحدات تُعادل تلك الخاصة بالشبكات أحادية الوحدة. وقد أظهرت التقييمات الشاملة في مهام تحويل الصورة إلى صورة متعددة الوحدات، والكشف عن الأجسام ثلاثية الأبعاد، والتصنيف الدلالي لأي وحدة، بما في ذلك الصور RGB، والعمق، وبيانات LiDAR، وبيانات الحدث، تفوق نموذجنا GeminiFusion مقارنةً بأحدث التقنيات. ويجدر بالذكر أن كود PyTorch متاح عبر الرابط: https://github.com/JiaDingCN/GeminiFusion

GeminiFusion: دمج متعدد الوسائط فعّال على مستوى البكسل لمحولات الرؤية | أحدث الأوراق البحثية | HyperAI