HyperAIHyperAI
منذ 2 أشهر

التطابق متعدد الوسائط للصور المستند إلى الانتباه

Moreshet, Aviad ; Keller, Yosi
التطابق متعدد الوسائط للصور المستند إلى الانتباه
الملخص

نقترح نهجًا يستند إلى الانتباه (attention) لتطابق الرقع الصورية متعددة الوسائط باستخدام مشفّر ترانسفورمر (Transformer) يركز على خرائط الميزات لمتعدّي المقياس من الشبكات العصبية التوأم (Siamese CNN). أظهر مشفّرنا قدرته على جمع المغروسات الصورية متعددة المقاييس بكفاءة مع التركيز على مؤشرات الصورة الثابتة في الشكل والمحددة للمهمة. كما قدمنا أيضًا هندسة معمارية تعتمد على الانتباه والارتباط الباقي (attention-residual)، والتي تستخدم اتصالًا باقيًا يتجاوز المشفّر. يساعد هذا الإشارة التعليمية الإضافية في تسهيل التدريب من البداية حتى النهاية من الصفر. أثبتت نهجتنا تجريبيًا أنها تحقق دقة جديدة غير مسبوقة في كلاً من مقاييس التطابق متعددة الوسائط وأحادية الوسيلة، مما يوضح قابلية التطبيق العامة لها. حسب علم us، هذه هي أول تنفيذ ناجح للهندسة المعمارية لمشفّر الترانسفورمر في مهمة تطابق الرقع الصورية متعددة الوسائط.注:在最后一句中,“us”一词通常不会出现在正式的学术或科技写作中,因此建议将其改为“المؤلفين”(作者们)以保持正式性。以下是修改后的版本:حسب علم المؤلفين، هذه هي أول تنفيذ ناجح للهندسة المعمارية لمشفّر الترانسفورمر في مهمة تطابق الرقع الصورية متعددة الوسائط.

التطابق متعدد الوسائط للصور المستند إلى الانتباه | أحدث الأوراق البحثية | HyperAI