HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSolo: تمكين مشفرة Transformer مع نقاط صريحة من الأداء الفردي للكشف عن النص

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

الملخص

يهدف التعرف على النص من الطرف إلى الطرف إلى دمج كلا المهمتين الفرعيتين للكشف عن النص في البيئة المكانية والتقدير فيه ضمن إطار موحد. ويلعب التعامل مع العلاقة بين المهمتين الفرعيتين دورًا محوريًا في تصميم أنظمة التعرف الفعّالة. وعلى الرغم من أن الطرق القائمة على المُحَوِّل (Transformer) تُزيل المعالجة ما بعدية اليدوية (heuristic post-processing)، إلا أنها ما زالت تعاني من مشكلة التآزر بين المهمتين الفرعيتين وفعالية تدريب منخفضة. في هذا البحث، نقدّم DeepSolo، وهو أساس بسيط على غرار DETR، يسمح لـ "مُفكّك واحد" (Decoder) باستخدام نقاط صريحة (Explicit Points) للقيام بالكشف عن النص والتقدير فيه في آنٍ واحد. من الناحية التقنية، نُمثّل كل مثال نصي كسلسلة من النقاط المرتبة، ونُمثّلها باستخدام استعلامات نقاط قابلة للتعلم (learnable explicit point queries). وبعد المرور عبر مُفكّك واحد، تُشحَن استعلامات النقاط بمعاني نصية وموقعات ضرورية، مما يمكنها من التفكيك لاحقًا إلى الخط الأوسط، والحدود، والخط (script)، ودرجة الثقة عبر رؤوس تنبؤ بسيطة تعمل بالتوازي. بالإضافة إلى ذلك، نُقدّم أيضًا معيارًا للتوافق النصي (text-matching criterion) لتقديم إشارات مراقبة أكثر دقة، مما يُمكّن من تدريب أكثر كفاءة. تُظهر التجارب الكمية على مجموعات بيانات عامة أن DeepSolo يتفوّق على الطرق السابقة الأكثر تقدمًا، ويحقق كفاءة تدريب أفضل. علاوةً على ذلك، فإن DeepSolo متوافق أيضًا مع التسميات الخطية (line annotations)، والتي تتطلب تكلفة تسمية أقل بكثير من التسميات متعددة الأضلاع (polygons). يمكن الوصول إلى الكود عبر الرابط: https://github.com/ViTAE-Transformer/DeepSolo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp