HyperAIHyperAI
منذ 2 أشهر

توليد الرسم البياني الشامل للمشهد

Jingkang Yang; Yi Zhe Ang; Zujin Guo; Kaiyang Zhou; Wayne Zhang; Ziwei Liu
توليد الرسم البياني الشامل للمشهد
الملخص

البحث الحالي يتناول إنشاء الرسم البياني للمشهد (SGG) - وهو تقنية حاسمة لفهم المشاهد في الصور - من منظور الكشف، أي يتم كشف الأشياء باستخدام صناديق الحدود ثم التنبؤ بعلاقاتها الثنائية. نعتقد أن هذا النموذج يسبب عدة مشاكل تعيق تقدم المجال. على سبيل المثال، تحتوي التسميات القائمة على صناديق الحدود في المجموعات الحالية للبيانات عادةً على فئات زائدة مثل الشعر، وتغفل معلومات الخلفية التي تعتبر أساسية لفهم السياق. في هذا العمل، نقدم إنشاء الرسم البياني للمشهد البانورامي (PSG)، وهي مهمة جديدة تتطلب من النموذج إنتاج تمثيل أكثر شمولية للرسم البياني للمشهد استنادًا إلى التقسيمات البانورامية بدلاً من صناديق الحدود الثابتة. تم إنشاء مجموعة بيانات PSG عالية الجودة تحتوي على 49 ألف صورة متداخلة مُشَرَّحة جيدًا من COCO و Visual Genome لمساعدة المجتمع في تتبع تقدمه. لأغراض المعايرة، قمنا ببناء أربع نماذج أولية ثنائية المرحلة، والتي تم تعديلها من الأساليب الكلاسيكية في SGG، ونماذجين أوليين أحاديتي المرحلة يُطلق عليهما PSGTR و PSGFormer، والتي تستند إلى الكاشف القائم على Transformer الفعال، أي DETR. بينما يستخدم PSGTR مجموعة من الاستفسارات لتعلم الثلاثيات مباشرة، يقوم PSGFormer بتقديم نماذج للأجسام والعلاقات بشكل منفصل كاستفسارات من محولين فككين (Transformer decoders)، يتبعها آلية مطابقة بين العلاقة والجسم تشبه الإيحاء. في النهاية، نشارك رؤى حول التحديات المفتوحة واتجاهات المستقبل.

توليد الرسم البياني الشامل للمشهد | أحدث الأوراق البحثية | HyperAI