HyperAIHyperAI

Command Palette

Search for a command to run...

التطابق متعدد الوسائط للصور المستند إلى الانتباه

Aviad Moreshet Yosi Keller

الملخص

نقترح نهجًا يستند إلى الانتباه (attention) لتطابق الرقع الصورية متعددة الوسائط باستخدام مشفّر ترانسفورمر (Transformer) يركز على خرائط الميزات لمتعدّي المقياس من الشبكات العصبية التوأم (Siamese CNN). أظهر مشفّرنا قدرته على جمع المغروسات الصورية متعددة المقاييس بكفاءة مع التركيز على مؤشرات الصورة الثابتة في الشكل والمحددة للمهمة. كما قدمنا أيضًا هندسة معمارية تعتمد على الانتباه والارتباط الباقي (attention-residual)، والتي تستخدم اتصالًا باقيًا يتجاوز المشفّر. يساعد هذا الإشارة التعليمية الإضافية في تسهيل التدريب من البداية حتى النهاية من الصفر. أثبتت نهجتنا تجريبيًا أنها تحقق دقة جديدة غير مسبوقة في كلاً من مقاييس التطابق متعددة الوسائط وأحادية الوسيلة، مما يوضح قابلية التطبيق العامة لها. حسب علم us، هذه هي أول تنفيذ ناجح للهندسة المعمارية لمشفّر الترانسفورمر في مهمة تطابق الرقع الصورية متعددة الوسائط.注:在最后一句中,“us”一词通常不会出现在正式的学术或科技写作中,因此建议将其改为“المؤلفين”(作者们)以保持正式性。以下是修改后的版本:حسب علم المؤلفين، هذه هي أول تنفيذ ناجح للهندسة المعمارية لمشفّر الترانسفورمر في مهمة تطابق الرقع الصورية متعددة الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp