HyperAIHyperAI

Command Palette

Search for a command to run...

AnyText: توليد وتحرير النص المرئي متعدد اللغات

Yuxiang Tuo Wangmeng Xiang Jun-Yan He Yifeng Geng Xuansong Xie

الملخص

أحرزت النماذج التفريغية القائمة على النص إلى الصورة تقدماً ملحوظاً في الآونة الأخيرة. وعلى الرغم من التطور الكبير في تقنيات توليد الصور، التي أصبحت قادرة على إنتاج صور ذات وضوح عالٍ، إلا أن التفاصيل النصية في الصور المولّدة قد تُفضح بسهولة عند التركيز عليها. ولحل هذه المشكلة، نقدّم "AnyText"، وهو نموذج توليد وتحرير نصوص بصرية متعدد اللغات مبني على النموذج التفريقي، يركّز على عرض نصوص دقيقة ومتماسكة ضمن الصور. يتكون AnyText من خط أنابيب تفريقي يحتوي على عنصرين رئيسيين: وحدة مساحة مساعدة (auxiliary latent module) ووحدة ترميز النص (text embedding module). تستخدم الوحدة الأولى مدخلات مثل رموز النص (text glyph)، والموقع، والصورة المُقنّعة (masked image) لإنشاء ميزات مساحية لغرض توليد أو تعديل النصوص. أما الوحدة الثانية، فتستخدم نموذج OCR لترميز بيانات الخط (stroke data) إلى تمثيلات (embeddings)، والتي تُدمج مع تمثيلات عناوين الصور المستمدة من المُفكّك (tokenizer) لإنتاج نصوص تندمج سلسًا مع الخلفية. تم استخدام خسارة التحكم بالنص (text-control diffusion loss) وخسارة الإدراك النصي (text perceptual loss) أثناء التدريب لتعزيز دقة الكتابة بشكل أكبر. وبما أن AnyText قادر على كتابة أحرف بلغات متعددة، فإننا، على الأقل، نُعتبر أول عمل يعالج توليد النصوص البصرية متعددة اللغات. ومن الجدير بالذكر أن AnyText يمكن دمجه في النماذج التفريقيّة الحالية المتوفرة في المجتمع لتمكين توليد أو تعديل النصوص بدقة. وبعد إجراء تجارب تقييم واسعة النطاق، أظهرت طريقتنا تفوقاً كبيراً على جميع الطرق الأخرى. بالإضافة إلى ذلك، نقدّم أول مجموعة بيانات كبيرة متعددة اللغات للصور النصية، تُدعى "AnyWord-3M"، والتي تحتوي على 3 ملايين زوج من الصورة والنص، مع ملاحظات OCR متعددة اللغات. وباستخدام مجموعة بيانات AnyWord-3M، قمنا بتطوير "AnyText-benchmark" لتقييم دقة ونوعية توليد النصوص البصرية. وسيتم إتاحة مشروعنا مفتوح المصدر على الرابط: https://github.com/tyxsspa/AnyText، بهدف تعزيز وتطوير تقنيات توليد النصوص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp