HyperAIHyperAI
منذ 17 أيام

AnyText: توليد وتحرير النص المرئي متعدد اللغات

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie
AnyText: توليد وتحرير النص المرئي متعدد اللغات
الملخص

أحرزت النماذج التفريغية القائمة على النص إلى الصورة تقدماً ملحوظاً في الآونة الأخيرة. وعلى الرغم من التطور الكبير في تقنيات توليد الصور، التي أصبحت قادرة على إنتاج صور ذات وضوح عالٍ، إلا أن التفاصيل النصية في الصور المولّدة قد تُفضح بسهولة عند التركيز عليها. ولحل هذه المشكلة، نقدّم "AnyText"، وهو نموذج توليد وتحرير نصوص بصرية متعدد اللغات مبني على النموذج التفريقي، يركّز على عرض نصوص دقيقة ومتماسكة ضمن الصور. يتكون AnyText من خط أنابيب تفريقي يحتوي على عنصرين رئيسيين: وحدة مساحة مساعدة (auxiliary latent module) ووحدة ترميز النص (text embedding module). تستخدم الوحدة الأولى مدخلات مثل رموز النص (text glyph)، والموقع، والصورة المُقنّعة (masked image) لإنشاء ميزات مساحية لغرض توليد أو تعديل النصوص. أما الوحدة الثانية، فتستخدم نموذج OCR لترميز بيانات الخط (stroke data) إلى تمثيلات (embeddings)، والتي تُدمج مع تمثيلات عناوين الصور المستمدة من المُفكّك (tokenizer) لإنتاج نصوص تندمج سلسًا مع الخلفية. تم استخدام خسارة التحكم بالنص (text-control diffusion loss) وخسارة الإدراك النصي (text perceptual loss) أثناء التدريب لتعزيز دقة الكتابة بشكل أكبر. وبما أن AnyText قادر على كتابة أحرف بلغات متعددة، فإننا، على الأقل، نُعتبر أول عمل يعالج توليد النصوص البصرية متعددة اللغات. ومن الجدير بالذكر أن AnyText يمكن دمجه في النماذج التفريقيّة الحالية المتوفرة في المجتمع لتمكين توليد أو تعديل النصوص بدقة. وبعد إجراء تجارب تقييم واسعة النطاق، أظهرت طريقتنا تفوقاً كبيراً على جميع الطرق الأخرى. بالإضافة إلى ذلك، نقدّم أول مجموعة بيانات كبيرة متعددة اللغات للصور النصية، تُدعى "AnyWord-3M"، والتي تحتوي على 3 ملايين زوج من الصورة والنص، مع ملاحظات OCR متعددة اللغات. وباستخدام مجموعة بيانات AnyWord-3M، قمنا بتطوير "AnyText-benchmark" لتقييم دقة ونوعية توليد النصوص البصرية. وسيتم إتاحة مشروعنا مفتوح المصدر على الرابط: https://github.com/tyxsspa/AnyText، بهدف تعزيز وتطوير تقنيات توليد النصوص.

AnyText: توليد وتحرير النص المرئي متعدد اللغات | أحدث الأوراق البحثية | HyperAI