منذ 8 أشهر

الملخص

في هذا البحث، نتناول مشكلة العد البصري العام للأجسام، بهدف تطوير نموذج حاسوبي لعد عدد الأجسام من فئات معنوية متنوعة باستخدام عدد تعسفي من "النماذج الأولية"، أي العد بدون أمثلة أو بقليل من الأمثلة. لتحقيق هذا الهدف، نقدم الأربعة إسهامات التالية: (1) نقدم هندسة معمارية جديدة تعتمد على المتحولات (transformers) للعد البصري العام للأجسام، والتي أطلقنا عليها اسم CounTR (المتحول للعد)، حيث تقوم هذه الهندسة باستكشاف التشابه بين الأجزاء الصورية في الصورة أو مع النماذج الأولية المعطاة بشكل صريح باستخدام آلية الانتباه (attention mechanism)؛ (2) نعتمد نظام تدريب ذو مرحلتين، يتم فيه أولاً تدريب النموذج بشكل ذاتي-إشرافي (self-supervised learning)، ثم يلي ذلك التحسين الإشرافي (supervised fine-tuning)؛ (3) نقترح أنابيب عمل بسيطة وقابلة للتوسع لإنتاج صور تدريب تحتوي على عدد كبير من الحالات أو تنتمي إلى فئات معنوية مختلفة، مما يفرض على النموذج استخدام النماذج الأولية المعطاة بشكل صريح؛ (4) نقوم بدراستين استقصائيتين شاملتين على مقاييس العد الكبيرة الحجم، مثل FSC-147، ونبين الأداء الرائد في كل من السياقات بدون أمثلة وبقليل من الأمثلة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار