HyperAIHyperAI

Command Palette

Search for a command to run...

دقة الكائن الدلالي لتصنيع الصور النصية التوليدية

Tobias Hinz Stefan Heinrich Stefan Wermter

الملخص

الشبكات التوليدية المتنافسة التي تُشغَّل بناءً على وصف نصي للصورة قادرة على إنتاج صور تبدو واقعية. ومع ذلك، لا تزال الطرق الحالية تواجه صعوبات في إنتاج صور استنادًا إلى عناوين صور معقدة من مجالات متنوعة. علاوةً على ذلك، يُعد تقييم هذه النماذج من نص إلى صورة تحديًا كميًا، إذ تقيّم معظم مقاييس التقييم جودة الصورة فقط، دون النظر إلى مدى التوافق بين الصورة ووصفها النصي. ولحل هذه التحديات، نقدّم نموذجًا جديدًا يُمكّن من نمذجة الكائنات الفردية داخل الصورة بشكل صريح، ونُقدّم أيضًا مقياس تقييم جديد يُسمّى "دقة الكائن الدلالي" (SOA)، والذي يُستخدم خصيصًا لتقييم الصور بناءً على وصف نصي مرفق بها. يستخدم مقياس SOA كاشف كائن مُدرّب مسبقًا لفحص ما إذا كانت الصورة المُولَّدة تحتوي على كائنات مذكورة في وصف الصورة، مثل التحقق من وجود سيارة في صورة مولّدة من وصف "سيارة تسير في الشارع". أجرينا دراسة مستخدمين تُقارن بين عدة نماذج من نص إلى صورة، وأظهرت النتائج أن مقياس SOA يصنّف النماذج بنفس الترتيب الذي يُفضّله البشر، في حين أن مقاييس أخرى مثل "مقياس إنسيبشن" (Inception Score) لا تُظهر نفس الدقة. كما أظهر التقييم أن النماذج التي تُمكّن من نمذجة الكائنات بشكل صريح تتفوّق على النماذج التي تُركّز فقط على الخصائص العامة للصورة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
دقة الكائن الدلالي لتصنيع الصور النصية التوليدية | مستندات | HyperAI