CounTR: العد البصري المعمم القائم على Transformer

في هذا البحث، نتناول مشكلة العد البصري العام للأجسام، بهدف تطوير نموذج حاسوبي لعد عدد الأجسام من فئات معنوية متنوعة باستخدام عدد تعسفي من "النماذج الأولية"، أي العد بدون أمثلة أو بقليل من الأمثلة. لتحقيق هذا الهدف، نقدم الأربعة إسهامات التالية: (1) نقدم هندسة معمارية جديدة تعتمد على المتحولات (transformers) للعد البصري العام للأجسام، والتي أطلقنا عليها اسم CounTR (المتحول للعد)، حيث تقوم هذه الهندسة باستكشاف التشابه بين الأجزاء الصورية في الصورة أو مع النماذج الأولية المعطاة بشكل صريح باستخدام آلية الانتباه (attention mechanism)؛ (2) نعتمد نظام تدريب ذو مرحلتين، يتم فيه أولاً تدريب النموذج بشكل ذاتي-إشرافي (self-supervised learning)، ثم يلي ذلك التحسين الإشرافي (supervised fine-tuning)؛ (3) نقترح أنابيب عمل بسيطة وقابلة للتوسع لإنتاج صور تدريب تحتوي على عدد كبير من الحالات أو تنتمي إلى فئات معنوية مختلفة، مما يفرض على النموذج استخدام النماذج الأولية المعطاة بشكل صريح؛ (4) نقوم بدراستين استقصائيتين شاملتين على مقاييس العد الكبيرة الحجم، مثل FSC-147، ونبين الأداء الرائد في كل من السياقات بدون أمثلة وبقليل من الأمثلة.