Command Palette
Search for a command to run...
DETR الشرطي لتسريع تقارب التدريب
DETR الشرطي لتسريع تقارب التدريب
Depu Meng Xiaokang Chen Zejia Fan Gang Zeng Houqiang Li Yuhui Yuan Lei Sun Jingdong Wang
الملخص
يُطبّق النهج الجديد المعروف بـ DETR معمارية مشفرة وفك مشفرة من نوع الترانسفورمر على كشف الكائنات، ويحقق أداءً واعدًا. في هذه الورقة، نتناول المسألة الحرجة المتمثلة في البطء الناتج عن تقارب التدريب، ونقدّم آلية انتباه متقاطع شرطيّة لتسريع عملية تدريب DETR. تُحفّز هذه المبادرة على أن الانتباه المتقاطع في DETR يعتمد بشكل كبير على تضمينات المحتوى لتحديد الأربعة نقاط الطرفية وتوقع مربع الكائن، مما يزيد من الحاجة إلى تضمينات محتوى عالية الجودة، وبالتالي يُعقّد عملية التدريب. يُسمّى نهجنا الجديد "DETR الشرطي"، حيث يتعلم استعلامًا مكانيًا شرطيًا من تضمينات المشفرة في الجزء المُفكّك لاستخدامه في الانتباه المتقاطع متعدد الرؤوس في المشفرة. وتتمثل الفائدة في أن كل رأس انتباه متقاطع، من خلال الاستعلام المكاني الشرطي، يكون قادرًا على التركيز على نطاق يحتوي على منطقة مميزة، مثل إحدى النقاط الطرفية للكائن أو منطقة داخل مربع الكائن. وبذلك، يتم تضييق النطاق المكاني المطلوب لتحديد المناطق المميزة، مما يقلل الاعتماد على تضمينات المحتوى ويُخفّف من صعوبة التدريب. تُظهر النتائج التجريبية أن DETR الشرطي يُسرّع التقارب بنسبة 6.7 مرة بالنسبة لمحاور R50 وR101، وبنسبة 10 مرات بالنسبة للمحاور الأقوى DC5-R50 وDC5-R101. يمكن الاطلاع على الكود عبر الرابط: https://github.com/Atten4Vis/ConditionalDETR.