HiLo: استغلال العلاقات بين الترددات العالية والمنخفضة لتقديم رسومات مشهد بانورامية خالية من التحيز

توليد الرسم البياني الشامل للمشهد (Panoptic Scene Graph generation - PSG) هو مهمة تم اقتراحها مؤخرًا في مجال فهم مشاهد الصور، وتهدف إلى تقسيم الصورة واستخراج ثلاثيات تتألف من المواضيع والكائنات والعلاقات بينهما لبناء رسم بياني للمشهد. تعتبر هذه المهمة تحديًا خاصًا لسببين رئيسيين. أولاً، تعاني من مشكلة ذيل طويل في فئات علاقاتها، مما يجعل الطرق المتحيزة البسيطة أكثر ميلًا إلى العلاقات ذات التكرار العالي. تقوم الطرق غير المتحيزة الحالية بمعالجة مشكلة الذيل الطويل عن طريق إعادة توازن البيانات أو الخسارة لصالح العلاقات ذات التكرار المنخفض. ثانيًا، يمكن أن يكون لدى زوج الموضوع-الكائن علاقتان أو أكثر متداخلتان معنويًا. بينما تفضل الطرق الحالية واحدة على الأخرى، يتيح الإطار المقترح لدينا HiLo لتخصص فروع الشبكة المختلفة في العلاقات ذات التكرار المنخفض والعالي، وفرض توافقها ودمج النتائج. حسب علمنا، نحن أول من يقترح طريقة صراحة غير متحيزة لـ PSG. في التجارب الواسعة التي أجريناها، أظهرنا أن إطاراتنا HiLo تحقق أفضل النتائج في مهمة PSG. كما قمنا بتطبيق طريقتنا على مهمة توليد الرسم البياني للمشهد التي تتوقع الصناديق بدلاً من الأقنعة وشاهدنا تحسينات على جميع الأساليب الأساسية. يمكن الوصول إلى الكود من الرابط: https://github.com/franciszzj/HiLo.