HyperAIHyperAI

Command Palette

Search for a command to run...

دمج الرموز متعددة الوسائط لمحولات الرؤية

Yikai Wang Xinghao Chen Lele Cao Wenbing Huang Fuchun Sun Yunhe Wang

الملخص

ظهرت العديد من التكيّفات الخاصة بمحولات (Transformers) لمعالجة المهام البصرية أحادية الوسيلة، حيث يتم تجميع وحدات الانتباه الذاتي لمعالجة مصادر إدخال مثل الصور. من الناحية المبدئية، قد يؤدي تغذية بيانات متعددة الوسائط إلى تحسين الأداء في محولات الرؤية، لكن الأوزان الانتباهية داخل الوسيلة قد تتضاءل أيضًا، مما قد يؤدي إلى تدهور الأداء النهائي. في هذا البحث، نقترح طريقة تكامل رموز متعددة الوسائط (TokenFusion)، مصممة خصيصًا للمهام البصرية القائمة على المحولات. لدمج فعّال لعدة وسائط، تقوم TokenFusion باكتشاف ديناميكي للرموز غير المفيدة، وتعويضها بسمات متعددة الوسائط المُشَرَّطة والمجمعة. كما يتم اعتماد تزامن موضعي متبقٍ (Residual positional alignment) لتمكين الاستخدام الصريح للتوافق بين الوسائط بعد التكامل. تتيح تصميم TokenFusion للمحول تعلّم العلاقات بين السمات متعددة الوسائط، مع الحفاظ على البنية الأساسية للمحول أحادي الوسيلة بشكل كبير. أُجريت تجارب واسعة على مجموعة متنوعة من الوسائط المتجانسة وغير المتجانسة، وأظهرت النتائج أن TokenFusion تتفوّق على أحدث الطرق في ثلاث مهام بصرية نموذجية: التحويل الصوري متعدد الوسائط من صورة إلى صورة، التصنيف الدلالي لصورة RGB وعمق، وتحديد الأجسام ثلاثية الأبعاد باستخدام سحابة النقاط والصور. يمكن الوصول إلى الشيفرة المصدرية الخاصة بنا عبر الرابط: https://github.com/yikaiw/TokenFusion.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp