تحرير النص في البيئة الطبيعية

في هذه الورقة، نهتم بتحرير النص في الصور الطبيعية، وهو يهدف إلى استبدال أو تعديل كلمة في الصورة المصدر مع أخرى بينما يتم الحفاظ على مظهرها الحقيقي. تعتبر هذه المهمة صعبة، حيث يجب الحفاظ على أسلوب الخلفية والنص بحيث تكون الصورة المحررة غير قابلة للتمييز بصرياً عن الصورة المصدر. بشكل خاص، نقترح شبكة حفظ الأسلوب (SRNet) قابلة للتدريب من البداية إلى النهاية والتي تتكون من ثلاثة وحدات: وحدة تحويل النص، وحدة التكميل الخلفي، ووحدة الدمج. تقوم وحدة تحويل النص بتغيير محتوى النص في الصورة المصدر إلى النص المستهدف مع الحفاظ على أسلوب النص الأصلي. تمحو وحدة التكميل الخلفي النص الأصلي وتملأ منطقة النص بالنسيج المناسب. تقوم وحدة الدمج بدمج المعلومات من الوحدتين السابقتين وإنتاج الصور النصية المحررة. حسب علمنا، تعد هذه الدراسة أول محاولة لتحرير النص في الصور الطبيعية على مستوى الكلمات. تؤكد كل من الآثار البصرية والنتائج الكمية على مجموعة البيانات المصنعة والواقعية (ICDAR 2013) تماماً أهمية وتوفير الوحدات الفرعية. كما أجرينا تجارب مكثفة لتأكيد فائدة طريقتنا في مختلف التطبيقات الواقعية مثل تركيب صور النص، ترجمة الواقع المعزز (AR)، إخفاء المعلومات وغيرها.