{Eli Shechtman Tony X. Han Aseem Agarwala Jianchao Yang Hailin Jin Guang Chen Jonathan Brandt}

الملخص
يُعالج هذا البحث مشكلة التعرف البصري على الخطوط (VFR) على نطاق واسع، التي تهدف إلى تحديد نوع الخط (الخطية)، ووزنه، واتجاهه (الانحدار) في نص موجود في صورة أو صورة فوتوغرافية، دون أي معرفة مسبقة بمحتوى النص. وعلى الرغم من التطبيقات العملية العديدة للتعرف البصري على الخطوط، إلا أن المجتمع البصري الحاسوبي قد أهملها إلى حد كبير. ولحل مشكلة التعرف على الخطوط البصرية، قمنا ببناء مجموعة بيانات كبيرة تضم 2420 فئة من الخطوط، وهي تفوق بسهولة الحجم المعتاد لمعظم مجموعات تصنيف الصور المستخدمة في مجال الرؤية الحاسوبية. وبما أن التعرف على الخطوط هو عملية ديناميكية ومتعددة الاحتمالات بطبيعتها، أي أن فئات جديدة وبيانات جديدة لفئات موجودة تُضاف باستمرار إلى قاعدة البيانات مع مرور الوقت، فقد اقترحنا حلًا قابلاً للتوسع يعتمد على فئة التصنيف القائمة على أقرب متوسط فئة (NCM). ويُبنى الخوارزمية الأساسية على تضمين الميزات المحلية، وتعلم قياس الميزات المحلية، واختيار النماذج ذات الحد الأقصى للحافة (max-margin template selection)، وهي عناصر تتناسب بشكل طبيعي مع NCM، وبالتالي مع مشكلات التصنيف المفتوحة النهاية. وتمكّن الخوارزمية الجديدة من التعميم على فئات جديدة وبيانات جديدة بتكلفة إضافية ضئيلة جدًا. وأظهرت التجارب الواسعة فعالية كبيرة لنهجنا على الصور التجريبية الاصطناعية، كما حقق نتائج واعدة على الصور الحقيقية من العالم الحقيقي.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| font-recognition-on-vfr-2420 | LFE (FS, template model size 2048) | Top 1 Accuracy: 72.5 Top 10 Accuracy: 96.87 Top 5 Accuracy: 93.45 |
| font-recognition-on-vfr-447 | LFE (FS, template model size 2048) | Top 1 Accuracy: 91.35 Top 10 Accuracy: 99.62 Top 5 Accuracy: 98.80 |
| font-recognition-on-vfr-wild | LFE (FS, template model size 2048) | Top 1 Accuracy: 52.61 Top 10 Accuracy: 62.14 Top 5 Accuracy: 58.4 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.