دمج الرموز متعددة الوسائط لمحولات الرؤية

ظهرت العديد من التكيّفات الخاصة بمحولات (Transformers) لمعالجة المهام البصرية أحادية الوسيلة، حيث يتم تجميع وحدات الانتباه الذاتي لمعالجة مصادر إدخال مثل الصور. من الناحية المبدئية، قد يؤدي تغذية بيانات متعددة الوسائط إلى تحسين الأداء في محولات الرؤية، لكن الأوزان الانتباهية داخل الوسيلة قد تتضاءل أيضًا، مما قد يؤدي إلى تدهور الأداء النهائي. في هذا البحث، نقترح طريقة تكامل رموز متعددة الوسائط (TokenFusion)، مصممة خصيصًا للمهام البصرية القائمة على المحولات. لدمج فعّال لعدة وسائط، تقوم TokenFusion باكتشاف ديناميكي للرموز غير المفيدة، وتعويضها بسمات متعددة الوسائط المُشَرَّطة والمجمعة. كما يتم اعتماد تزامن موضعي متبقٍ (Residual positional alignment) لتمكين الاستخدام الصريح للتوافق بين الوسائط بعد التكامل. تتيح تصميم TokenFusion للمحول تعلّم العلاقات بين السمات متعددة الوسائط، مع الحفاظ على البنية الأساسية للمحول أحادي الوسيلة بشكل كبير. أُجريت تجارب واسعة على مجموعة متنوعة من الوسائط المتجانسة وغير المتجانسة، وأظهرت النتائج أن TokenFusion تتفوّق على أحدث الطرق في ثلاث مهام بصرية نموذجية: التحويل الصوري متعدد الوسائط من صورة إلى صورة، التصنيف الدلالي لصورة RGB وعمق، وتحديد الأجسام ثلاثية الأبعاد باستخدام سحابة النقاط والصور. يمكن الوصول إلى الشيفرة المصدرية الخاصة بنا عبر الرابط: https://github.com/yikaiw/TokenFusion.