HyperAIHyperAI
منذ 2 أشهر

تعلم من الدلالات الغنية والمواقع الخشنة للكشف عن الأشياء ذي الذيل الطويل

Lingchen Meng; Xiyang Dai; Jianwei Yang; Dongdong Chen; Yinpeng Chen; Mengchen Liu; Yi-Ling Chen; Zuxuan Wu; Lu Yuan; Yu-Gang Jiang
تعلم من الدلالات الغنية والمواقع الخشنة للكشف عن الأشياء ذي الذيل الطويل
الملخص

كشف الأشياء ذات الذيل الطويل (LTOD) يهدف إلى التعامل مع عدم التوازن الشديد في البيانات في مجموعات البيانات الحقيقية، حيث يكون هناك العديد من الفئات النادرة التي تحتوي على عدد قليل من الحالات. إحدى الاستراتيجيات الشائعة هي استكشاف بيانات إضافية تحتوي على تسميات على مستوى الصورة، ولكنها تحقق نتائج محدودة بسبب: (1) الغموض الدلالي -- التسمية على مستوى الصورة تلتقط فقط جزءًا بارزًا من الصورة وتتجاهل الدلالات الدقيقة الأخرى الموجودة داخل الصورة؛ و(2) حساسية الموقع -- الاعتماد الكبير للتسمية على مواقع وزوايا التقاط الصورة الأصلية، والتي قد تتغير بعد تحويلات البيانات مثل القص العشوائي.لحل هذه المشكلة، نقترح طريقة بسيطة ولكن فعالة تُدعى RichSem، وهي قادرة على تعلم الدلالات الغنية من المواقع الخشنة دون الحاجة إلى صناديق حدود دقيقة. تعتمد RichSem على استخراج الدلالات الغنية من الصور واستخدامها كإشراف ناعم إضافي لتدريب الكاشفات. بشكل خاص، نضيف فرعًا دلاليًا إلى كاشفنا لتعلم هذه الدلالات الناعمة وتعزيز تمثيل الميزات لكشف الأشياء ذات الذيل الطويل. يتم استخدام الفرع الدلالي فقط أثناء التدريب ويتم إزالته أثناء الاستدلال.تحقق RichSem من التحسينات المستمرة في كلٍ من الإجمالي والفئات النادرة في مجموعة بيانات LVIS تحت مختلف الهياكل الأساسية والكاشفات. يبلغ أداء طرقتنا المستوى الرائد دون الحاجة إلى إجراءات تدريب واختبار معقدة. بالإضافة إلى ذلك، نظهر فعالية طرقتنا على مجموعات بيانات أخرى ذات ذيل طويل من خلال تجارب إضافية. يمكن الوصول إلى الكود عبر الرابط \url{https://github.com/MengLcool/RichSem}.