SPTS v2: الكشف عن النص في المشهد بنقطة واحدة

أحرز التعرف على النص في المشهد من الطرف إلى الطرف تقدماً كبيراً بفضل التآزر الطبيعي بين كشف النص وتمييزه. في الطرق السابقة، كان يُعتبر من الضروري استخدام التصنيفات اليدوية مثل المستطيلات الأفقية، والمستطيلات المائلة، والرباعيات، والمضلعات، وهي تُعد أكثر تكلفة بكثير من استخدام نقطة واحدة. يتيح لنا الإطار الجديد، SPTS v2، تدريب نماذج عالية الأداء في التعرف على النص باستخدام تسمية نقطة واحدة فقط. يحتفظ SPTS v2 بالميزة التي يتمتع بها المُحول التسلسلي (auto-regressive Transformer) من خلال مُفكّك تخصيص المثيلات (IAD)، الذي يتنبأ بالتسلسل بالتتابع بنقاط المركز الخاصة بكل مثيل نصي ضمن نفس التسلسل التنبؤي، في حين يُستخدم مُفكّك تمييز متوازٍ (PRD) لتمييز النص بشكل متوازٍ، مما يقلل بشكل كبير من طول التسلسل المطلوب. يشترك كلا المُفكّكين في نفس المعلمات، ويتصلان بشكل تفاعلي عبر عملية نقل معلومات بسيطة ولكن فعّالة لنقل التدرجات والمعلومات. أظهرت التجارب الشاملة على مجموعة متنوعة من مجموعات البيانات القياسية الحالية أن SPTS v2 يتفوق على أفضل النماذج السابقة التي تعتمد على نقطة واحدة، مع عدد أقل من المعلمات، وبنفس الوقت يحقق سرعة استنتاج تصل إلى 19 مرة أسرع. ضمن سياق إطارنا SPTS v2، تشير تجاربنا إلى وجود اتجاه محتمل نحو تفضيل التمثيل بنقطة واحدة في التعرف على النص في المشهد مقارنة بالتمثيلات الأخرى. تمثل هذه المحاولة فرصة كبيرة لتطبيقات التعرف على النص في المشهد تتجاوز الأطر الحالية. يمكن الوصول إلى الكود من خلال: https://github.com/Yuliang-Liu/SPTSv2.