HyperAIHyperAI
منذ 2 أشهر

TextBoxes++: كاشف النصوص الموجه في المشهد بدقة واحدة

Minghui Liao; Baoguang Shi; Xiang Bai
TextBoxes++: كاشف النصوص الموجه في المشهد بدقة واحدة
الملخص

كشف النص في المشهد هو خطوة مهمة في نظام التعرف على النص في المشهد وهو أيضًا مشكلة صعبة. يختلف هذا عن كشف الأشياء العامة، حيث تكمن التحديات الرئيسية للكشف عن النص في المشهد في اتجاهاته العشوائية، أحجامه الصغيرة ونسب أبعاده المتغيرة بشكل كبير في الصور الطبيعية. في هذه الورقة البحثية، نقدم جهاز كشف سريع للنص في المشهد يمكن تدريبه من البداية إلى النهاية، باسم TextBoxes++، والذي يكتشف النص العشوائي الاتجاه بدقّة وكفاءة عاليتين خلال مرور واحد بشبكة واحدة. لا يتضمن الجهاز أي معالجة ما بعد الكشف غير قمع الحد الأقصى الفعّال. لقد قمنا بتقييم الجهاز المقترح TextBoxes++ على أربع مجموعات بيانات عامة. وفي جميع التجارب، تفوق جهاز TextBoxes++ على الأساليب المنافسة من حيث دقة تحديد موقع النص والوقت المستغرق للتنفيذ. وبشكل أكثر تحديدًا، حقق جهاز TextBoxes++ معامل F بمقدار 0.817 بمعدل 11.6 إطارًا في الثانية لصور النص العرضي بحجم 10241024 من ICDAR 2015 (صور النص العرضي)، ومعامل F بمقدار 0.5591 بمعدل 19.8 إطارًا في الثانية لصور COCO-Text بحجم 768768. بالإضافة إلى ذلك، عند الجمع بينه وجهاز التعرف على النص، فإن جهاز TextBoxes++ يتفوق بشكل كبير على أفضل الأساليب المعاصرة لمهمتي تحديد الكلمات والتعرف على النص من البداية إلى النهاية على مقاييس شائعة. الرمز البرمجي متاح عبر الرابط: https://github.com/MhLiao/TextBoxes_plusplus

TextBoxes++: كاشف النصوص الموجه في المشهد بدقة واحدة | أحدث الأوراق البحثية | HyperAI