HyperAIHyperAI
منذ 2 أشهر

استخراج المعلومات المهيكلة من صور الشوارع باستخدام تقنيات الانتباه

Zbigniew Wojna; Alex Gorban; Dar-Shyang Lee; Kevin Murphy; Qian Yu; Yeqing Li; Julian Ibarz
استخراج المعلومات المهيكلة من صور الشوارع باستخدام تقنيات الانتباه
الملخص

نقدم نموذج شبكة عصبية - يعتمد على الشبكات العصبية التلافيفية (CNNs)، والشبكات العصبية المتكررة (RNNs)، وmekanism انتباه جديد - يحقق دقة تبلغ 84.2٪ على مجموعة بيانات لافتات أسماء الشوارع الفرنسية (FSNS)، مما يتفوق بشكل كبير على الحالة السابقة الأكثر تقدماً (Smith'16) التي حققت دقة 72.46٪. بالإضافة إلى ذلك، فإن طريقة جديدة لدينا أكثر بساطة وأعمومية من النهج السابق. للتأكيد على عمومية نموذجنا، نظهر أنه يؤدي بشكل جيد أيضًا على مجموعة بيانات أكثر تحديًا مشتقة من Google Street View، حيث الهدف هو استخراج أسماء الشركات من واجهات المتاجر. في النهاية، ندرس التوازن بين السرعة والدقة الذي ينتج عن استخدام مستخلصات الخصائص من الشبكات العصبية التلافيفية ذات الأعماق المختلفة. وبشكل مفاجئ، نجد أن الأعمق ليس دائمًا أفضل (من حيث الدقة وكذلك السرعة). النموذج الناتج لدينا بسيط ودقيق وسريع، مما يتيح استخدامه على نطاق واسع في مجموعة متنوعة من المشكلات الحقيقية الصعبة المتعلقة باستخراج النصوص.注:在“mekanism انتباه جديد”中,“mekanism”应该是“mechanism”的音译,正确的翻译应为“آلية انتباه جديدة”。以下是修正后的版本:نقدم نموذج شبكة عصبية - يعتمد على الشبكات العصبية التلافيفية (CNNs)، والشبكات العصبية المتكررة (RNNs)، وآلية انتباه جديدة - يحقق دقة تبلغ 84.2٪ على مجموعة بيانات لافتات أسماء الشوارع الفرنسية (FSNS)، مما يتفوق بشكل كبير على الحالة السابقة الأكثر تقدماً (Smith'16) التي حققت دقة 72.46٪. بالإضافة إلى ذلك، فإن طريقة جديدة لدينا أكثر بساطة وأعمومية من النهج السابق. للتأكيد على عمومية نموذجنا، نظهر أنه يؤدي بشكل جيد أيضًا على مجموعة بيانات أكثر تحديًا مشتقة من Google Street View، حيث الهدف هو استخراج أسماء الشركات من واجهات المتاجر. في النهاية، ندرس التوازن بين السرعة والدقة الذي ينتج عن استخدام مستخلصات الخصائص من الشبكات العصبية التلافيفية ذات الأعماق المختلفة. وبشكل مفاجئ، نجد أن الأعمق ليس دائمًا أفضل (من حيث الدقة وكذلك السرعة). النموذج الناتج لدينا بسيط ودقيق وسريع، مما يتيح استخدامه على نطاق واسع في مجموعة متنوعة من المشكلات الحقيقية الصعبة المتعلقة باستخراج النصوص.