HyperAIHyperAI
منذ 3 أشهر

دقة الكائن الدلالي لتصنيع الصور النصية التوليدية

Tobias Hinz, Stefan Heinrich, Stefan Wermter
دقة الكائن الدلالي لتصنيع الصور النصية التوليدية
الملخص

الشبكات التوليدية المتنافسة التي تُشغَّل بناءً على وصف نصي للصورة قادرة على إنتاج صور تبدو واقعية. ومع ذلك، لا تزال الطرق الحالية تواجه صعوبات في إنتاج صور استنادًا إلى عناوين صور معقدة من مجالات متنوعة. علاوةً على ذلك، يُعد تقييم هذه النماذج من نص إلى صورة تحديًا كميًا، إذ تقيّم معظم مقاييس التقييم جودة الصورة فقط، دون النظر إلى مدى التوافق بين الصورة ووصفها النصي. ولحل هذه التحديات، نقدّم نموذجًا جديدًا يُمكّن من نمذجة الكائنات الفردية داخل الصورة بشكل صريح، ونُقدّم أيضًا مقياس تقييم جديد يُسمّى "دقة الكائن الدلالي" (SOA)، والذي يُستخدم خصيصًا لتقييم الصور بناءً على وصف نصي مرفق بها. يستخدم مقياس SOA كاشف كائن مُدرّب مسبقًا لفحص ما إذا كانت الصورة المُولَّدة تحتوي على كائنات مذكورة في وصف الصورة، مثل التحقق من وجود سيارة في صورة مولّدة من وصف "سيارة تسير في الشارع". أجرينا دراسة مستخدمين تُقارن بين عدة نماذج من نص إلى صورة، وأظهرت النتائج أن مقياس SOA يصنّف النماذج بنفس الترتيب الذي يُفضّله البشر، في حين أن مقاييس أخرى مثل "مقياس إنسيبشن" (Inception Score) لا تُظهر نفس الدقة. كما أظهر التقييم أن النماذج التي تُمكّن من نمذجة الكائنات بشكل صريح تتفوّق على النماذج التي تُركّز فقط على الخصائص العامة للصورة.