عد الأشياء وتصنيفها بقليل من الأمثلة

نواجه مهمة جديدة في عد الأشياء و侦探ها بقليل من النماذج. بالنظر إلى عدد قليل من الصناديق الحدودية للنموذج الأولي لصنف الهدف، نسعى إلى عد وكشف جميع الأشياء التابعة لهذا الصنف. هذه المهمة تشترك في نفس الإشراف مع مهمة عد الأشياء بقليل من النماذج، ولكنها تضيف إخراج صناديق الحدود الخاصة بالأشياء بالإضافة إلى العدد الكلي للأشياء. لمعالجة هذه المشكلة الصعبة، نقدم استراتيجية تدريب ثنائية المرحلة جديدة ومكتشف أشياء قليل النماذج جديد يعتمد على الوعي بالشكوك: Counting-DETR (عد-ديتر). الهدف من الأولى هو توليد صناديق حدودية شبه حقيقية لتدريب الثانية. أما الثانية فتستفيد من الصناديق الحدودية شبه الحقيقية التي توفرها الأولى، ولكنها تتخذ الخطوات اللازمة لاعتبار عدم كمال الشكوك في الصناديق الحدودية شبه الحقيقية. لتأكيد أداء طريقتنا في المهمة الجديدة، نقدم مجموعتين بيانات جديدتين باسم FSCD-147 و FSCD-LVIS. تحتوي كلتا المجموعتين على صور ذات مشاهد معقدة، وأصناف متعددة من الأشياء في كل صورة، وتباين كبير في أشكال وأحجام ومظهر الأشياء. يتفوق نهجنا المقترح بشكل كبير على خطوط الأساس القوية جدًا المستوحاة من عد الأشياء بقليل من النماذج وكشف الأشياء بقليل من النماذج في كلتا مؤشري العد والكشف. الرمز والموديلات متاحة على الرابط https://github.com/VinAIResearch/Counting-DETR.请注意,"侦探"在这里可能不是最合适的翻译,更准确的翻译应该是"检测"。以下是修正后的版本:نحن نواجه مهمة جديدة في عد الأجسام وكشفها بقليل من النماذج. بالنظر إلى عدد قليل من الصناديق الحدودية للنموذج الأولي لصنف الجسم المرغوب، نسعى إلى عد وكشف جميع الأجسام التابعة لهذا الصف. هذه المهمة تشترك في نفس الإشراف مع مهمة عد الأجسام بقليل من النماذج، ولكنها تضيف إخراج صناديق الحدود الخاصة بالأجسام بالإضافة إلى العدد الكلي للأجسام. لمعالجة هذه المشكلة الصعبة، نقدم استراتيجية تدريب ثنائية المرحلة جديدة ومكتشف أجسام قليل النماذج جديد يعتمد على الوعي بالشكوك: Counting-DETR (عد-ديتر). الهدف من الأولى هو توليد صناديق حدودية شبه حقيقية لتدريب الثانية. أما الثانية فتستفيد من الصناديق الحدودية شبه الحقيقية التي توفرها الأولى، ولكنها تتخذ الخطوات اللازمة لاعتبار عدم كمال الشكوك في الصناديق الحدودية شبه الحقيقية. لتأكيد أداء طريقتنا في المهمة الجديدة، نقدم مجموعتين بيانات جديدتين باسم FSCD-147 و FSCD-LVIS. تحتوي كلتا المجموعتين على صور ذات مشاهد معقدة، وأصناف متعددة من الأجسام في كل صورة، وتباين كبير في أشكال وأحجام ومظهر الأجسام. يتفوق نهجنا المقترح بشكل كبير على خطوط الأساس القوية جدًا المستوحاة من عد الأجسام بقليل من النماذج وكشف الأجسام بقليل من النماذج في كلتا مؤشري العد والكشف. الرمز والموديلات متاحة على الرابط https://github.com/VinAIResearch/Counting-DETR.