HyperAIHyperAI

Command Palette

Search for a command to run...

GeminiFusion: دمج متعدد الوسائط فعّال على مستوى البكسل لمحولات الرؤية

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

الملخص

أظهرت نماذج التحويل العابر للوحدات (Cross-modal transformers) تفوقًا في مهام الرؤية المختلفة من خلال دمج فعّال بين الوحدات المختلفة. يقدّم هذا البحث أول تقييم نقدي لطرق استبدال الرموز السابقة التي تستبدل الرموز الأقل إفادة بسمات عابرة للوحدات، ويُظهر أن الطرق القائمة على الاستبدال تُظهر أداءً أضعف مقارنةً بآليات الانتباه العابر للوحدات، رغم أن الطلب الحسابي العالي لهذه الآليات يُحد من استخدامها مع التسلسلات الطويلة. وللتغلب على التحديات الحسابية، نقترح نموذج "GeminiFusion"، وهو نهج يعتمد على الدمج على مستوى البكسل، ويستفيد من التمثيلات العابرة للوحدات المتماشية. يتميّز GeminiFusion بدمجه الأنيق للانتباه داخل الوحدة والانتباه بين الوحدات، حيث يُدمج ديناميكيًا المعلومات المكملة عبر الوحدات المختلفة. نستخدم ضوضاء تكيفية حسب الطبقة لضبط تفاعلها بشكل تلقائي على مستوى كل طبقة، مما يُحقق عملية دمج متوازنة. ويُذكَر أن GeminiFusion يحافظ على تعقيد خطي بالنسبة لعدد الرموز المدخلة، مما يضمن كفاءة تشغيل هذا الإطار المتعدد الوحدات تُعادل تلك الخاصة بالشبكات أحادية الوحدة. وقد أظهرت التقييمات الشاملة في مهام تحويل الصورة إلى صورة متعددة الوحدات، والكشف عن الأجسام ثلاثية الأبعاد، والتصنيف الدلالي لأي وحدة، بما في ذلك الصور RGB، والعمق، وبيانات LiDAR، وبيانات الحدث، تفوق نموذجنا GeminiFusion مقارنةً بأحدث التقنيات. ويجدر بالذكر أن كود PyTorch متاح عبر الرابط: https://github.com/JiaDingCN/GeminiFusion


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GeminiFusion: دمج متعدد الوسائط فعّال على مستوى البكسل لمحولات الرؤية | مستندات | HyperAI