HyperAIHyperAI

Command Palette

Search for a command to run...

توليد الرسم البياني الشامل للمشهد

Jingkang Yang; Yi Zhe Ang; Zujin Guo; Kaiyang Zhou; Wayne Zhang; Ziwei Liu

الملخص

البحث الحالي يتناول إنشاء الرسم البياني للمشهد (SGG) - وهو تقنية حاسمة لفهم المشاهد في الصور - من منظور الكشف، أي يتم كشف الأشياء باستخدام صناديق الحدود ثم التنبؤ بعلاقاتها الثنائية. نعتقد أن هذا النموذج يسبب عدة مشاكل تعيق تقدم المجال. على سبيل المثال، تحتوي التسميات القائمة على صناديق الحدود في المجموعات الحالية للبيانات عادةً على فئات زائدة مثل الشعر، وتغفل معلومات الخلفية التي تعتبر أساسية لفهم السياق. في هذا العمل، نقدم إنشاء الرسم البياني للمشهد البانورامي (PSG)، وهي مهمة جديدة تتطلب من النموذج إنتاج تمثيل أكثر شمولية للرسم البياني للمشهد استنادًا إلى التقسيمات البانورامية بدلاً من صناديق الحدود الثابتة. تم إنشاء مجموعة بيانات PSG عالية الجودة تحتوي على 49 ألف صورة متداخلة مُشَرَّحة جيدًا من COCO و Visual Genome لمساعدة المجتمع في تتبع تقدمه. لأغراض المعايرة، قمنا ببناء أربع نماذج أولية ثنائية المرحلة، والتي تم تعديلها من الأساليب الكلاسيكية في SGG، ونماذجين أوليين أحاديتي المرحلة يُطلق عليهما PSGTR و PSGFormer، والتي تستند إلى الكاشف القائم على Transformer الفعال، أي DETR. بينما يستخدم PSGTR مجموعة من الاستفسارات لتعلم الثلاثيات مباشرة، يقوم PSGFormer بتقديم نماذج للأجسام والعلاقات بشكل منفصل كاستفسارات من محولين فككين (Transformer decoders)، يتبعها آلية مطابقة بين العلاقة والجسم تشبه الإيحاء. في النهاية، نشارك رؤى حول التحديات المفتوحة واتجاهات المستقبل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp