HyperAIHyperAI
منذ 17 أيام

إطلاق العنان للهياكل الأساسية للصور المُدرّبة مسبقًا لصُنع الصور الشكلية

Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari
إطلاق العنان للهياكل الأساسية للصور المُدرّبة مسبقًا لصُنع الصور الشكلية
الملخص

التوليد الدلالي للصور، أي إنشاء صور من خرائط تسمية دلالية مقدمة من المستخدم، يُعد مهمة مهمة في توليد الصور الشرطية، لأنه يتيح التحكم في المحتوى وكذلك التخطيط المكاني للصور المولّدة. وعلى الرغم من أن النماذج الانتشارية (Diffusion Models) قد دفعت حدود الأداء في نمذجة الصور التوليدية، فإن الطبيعة التكرارية لعملية الاستنتاج فيها تجعلها مكلفة من حيث الحوسبة. أما النماذج الأخرى مثل الشبكات التوليدية التنافسية (GANs)، فهي أكثر كفاءة لأنها تتطلب فقط عملية تمرير أمامي واحدة لإنشاء الصورة، لكن جودة الصور تميل إلى التدهور عند استخدامها على مجموعات بيانات كبيرة ومتنوعة. في هذا العمل، نقترح فئة جديدة من مُميّزات (Discriminators) GANs للإنتاج الدلالي للصور، تُنتج صورًا واقعية للغاية من خلال استغلال شبكات أساسية للسمات مُدرّبة مسبقًا لمهام مثل تصنيف الصور. كما نقدّم معمارية جديدة للمُولّد (Generator) تتميز بنمذجة أفضل للسياق، وتستخدم الانتباه المتقاطع (Cross-Attention) لحقن الضوضاء في المتغيرات المخفية، مما يؤدي إلى صور مولّدة أكثر تنوعًا. يُسمّى نموذجنا DP-SIMS، ويحقق أداءً متقدمًا على مستوى جودة الصور والاتساق مع خرائط التسمية المدخلة على مجموعات ADE-20K وCOCO-Stuff وCityscapes، متفوّقًا على النماذج الانتشارية الحديثة، مع استهلاك أقل بمرتين من حيث الحوسبة أثناء الاستنتاج.

إطلاق العنان للهياكل الأساسية للصور المُدرّبة مسبقًا لصُنع الصور الشكلية | أحدث الأوراق البحثية | HyperAI