HyperAIHyperAI
منذ 11 أيام

DiffusionSTR: نموذج التشتت للتعرف على النص في المشهد

Masato Fujitake
DiffusionSTR: نموذج التشتت للتعرف على النص في المشهد
الملخص

تقدم هذه الورقة البحثية نموذج التوزيع للقراءة النصية في المشاهد (DiffusionSTR)، وهو إطار عمل للقراءة النصية من النهاية إلى النهاية يستخدم نماذج التوزيع لتمييز النصوص في البيئات الواقعية. في حين أن الدراسات السابقة رأت مهمة قراءة النصوص في المشاهد كتحويل من صورة إلى نص، فإننا نعيد التفكير في هذه المهمة على أنها عملية تحويل نصي-نصي ضمن سياق صورة، باستخدام نموذج التوزيع. ونُظهر لأول مرة إمكانية تطبيق نموذج التوزيع على قراءة النصوص. علاوة على ذلك، تُظهر النتائج التجريبية على مجموعات بيانات متاحة للجمهور أن الطريقة المقترحة تحقق دقة تنافسية مقارنة بالطرق الرائدة في مجالها.

DiffusionSTR: نموذج التشتت للتعرف على النص في المشهد | أحدث الأوراق البحثية | HyperAI