HyperAIHyperAI
منذ 2 أشهر

MIGC: متحكم في توليد الحالات المتعددة لتركيب الصور من النصوص

Zhou, Dewei ; Li, You ; Ma, Fan ; Zhang, Xiaoting ; Yang, Yi
MIGC: متحكم في توليد الحالات المتعددة لتركيب الصور من النصوص
الملخص

نقدم مهمة توليد متعدد النماذج (MIG)، وهي تتضمن توليد نماذج متعددة ذات ضوابط متنوعة في صورة واحدة. بالنظر إلى مجموعة من الإحداثيات المحددة مسبقًا ووصفها المقابل، فإن الهدف هو ضمان أن تكون النماذج المُولَّدة في الأماكن المُعَيَّنة بدقة وأن تنطبق جميع خصائص النماذج على وصفها المقابل. هذا يوسع نطاق البحث الحالي حول توليد نموذج واحد، مما يرفعه إلى بُعد أكثر مرونة وعمليًا. مستوحىً من فكرة التقسيم والغلبة، نقدم نهجًا مبتكرًا باسم محكم توليد متعدد النماذج (MIGC) لمعالجة التحديات المرتبطة بمهمة MIG.في البداية، نقوم بتقسيم مهمة MIG إلى عدة مهمات فرعية، كل منها يتضمن ظل نموذج واحد. لضمان ظل دقيق لكل نموذج، نقدم آلية انتباه تعزيز النموذج. أخيرًا، نجمع جميع النماذج المشدودة لتوفير المعلومات اللازمة لتوليد نماذج متعددة بدقة في التوزيع المستقر (SD). لتقدير مدى أداء نماذج التوليد في مهمة MIG، قدمْنا مقاييس COCO-MIG مع أنابيب تقييم. تم إجراء تجارب واسعة على المقاييس المقترحة COCO-MIG وعلى العديد من المقاييس الشائعة الاستخدام.توضح نتائج التقييم قدرات السيطرة الاستثنائية لنموذجنا فيما يتعلق بالكمية والموقع والخصائص والتداخل. سيتم إطلاق الكود والتطبيقات العملية على الرابط https://migcproject.github.io/.