منذ 8 أشهر

الملخص

يُطبّق النهج الجديد المعروف بـ DETR معمارية مشفرة وفك مشفرة من نوع الترانسفورمر على كشف الكائنات، ويحقق أداءً واعدًا. في هذه الورقة، نتناول المسألة الحرجة المتمثلة في البطء الناتج عن تقارب التدريب، ونقدّم آلية انتباه متقاطع شرطيّة لتسريع عملية تدريب DETR. تُحفّز هذه المبادرة على أن الانتباه المتقاطع في DETR يعتمد بشكل كبير على تضمينات المحتوى لتحديد الأربعة نقاط الطرفية وتوقع مربع الكائن، مما يزيد من الحاجة إلى تضمينات محتوى عالية الجودة، وبالتالي يُعقّد عملية التدريب. يُسمّى نهجنا الجديد "DETR الشرطي"، حيث يتعلم استعلامًا مكانيًا شرطيًا من تضمينات المشفرة في الجزء المُفكّك لاستخدامه في الانتباه المتقاطع متعدد الرؤوس في المشفرة. وتتمثل الفائدة في أن كل رأس انتباه متقاطع، من خلال الاستعلام المكاني الشرطي، يكون قادرًا على التركيز على نطاق يحتوي على منطقة مميزة، مثل إحدى النقاط الطرفية للكائن أو منطقة داخل مربع الكائن. وبذلك، يتم تضييق النطاق المكاني المطلوب لتحديد المناطق المميزة، مما يقلل الاعتماد على تضمينات المحتوى ويُخفّف من صعوبة التدريب. تُظهر النتائج التجريبية أن DETR الشرطي يُسرّع التقارب بنسبة 6.7 مرة بالنسبة لمحاور R50 وR101، وبنسبة 10 مرات بالنسبة للمحاور الأقوى DC5-R50 وDC5-R101. يمكن الاطلاع على الكود عبر الرابط: https://github.com/Atten4Vis/ConditionalDETR.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار