HyperAIHyperAI
منذ 3 أشهر

RTGen: إنشاء أزواج المنطقة-النص للكشف عن الكائنات بفقرة مفتوحة

Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides
RTGen: إنشاء أزواج المنطقة-النص للكشف عن الكائنات بفقرة مفتوحة
الملخص

يُعدّ الكشف عن الكائنات ذات النطاق المفتوح (OVD) احتياجًا مُلحًا لنموذج قوي للعلاقة بين المنطقة والمعنى، والتي يمكن تعلّمها من أزواج مناطق-نصوص ضخمة. ومع ذلك، يظل هذا النوع من البيانات محدودًا في الممارسة العملية بسبب التكاليف العالية للتصنيف. في هذا العمل، نقترح نموذج RTGen لتكوين أزواج مناطق-نصوص قابلة للتوسع، ونُظهر قدرته على تعزيز أداء الكشف عن الكائنات ذات النطاق المفتوح. يشمل RTGen عمليتي توليد: توليد من النص إلى المنطقة، وتوليد من المنطقة إلى النص، على بيانات صور-تعليقات قابلة للتوسع. يعتمد توليد النص إلى المنطقة على تقنية ترميم الصورة (image inpainting)، ويدَرَّس بواسطة دليل ترميم واعٍ بالمشهد (scene-aware inpainting guider) اقترحه الباحثون لضمان التوازن العام في التخطيط البصري. أما في عملية توليد المنطقة إلى النص، فيُجرى توليد عناوين متعددة للمنطقة باستخدام محفزات مختلفة، ثم يتم اختيار النص الأفضل تطابقًا بناءً على مقياس التشابه مع نموذج CLIP. ولتسهيل تدريب الكشف على أزواج المناطق-النصوص، نقدّم أيضًا خسارة تباينية مُراعية للتحديد المكاني (localization-aware region-text contrastive loss)، التي تتعلم اقتراحات الكائنات المُصممة حسب جودة التحديد المختلفة. تُظهر التجارب الواسعة أن RTGen يمكنه أن يُعدّ مصدرًا قابلاً للتوسع، غنيًا بالمعنى، وفعالًا للكشف عن الكائنات ذات النطاق المفتوح، ويُحسّن أداء النموذج باستمرار مع زيادة كمية البيانات المستخدمة، مما يُحقق أداءً متفوقًا مقارنةً بالأساليب الرائدة الحالية.