HyperAIHyperAI
منذ 17 أيام

جريت: تحسين التوصيف الصوتي للصور باستخدام نموذج الترانسفورمر بشكل أسرع وأفضل من خلال استخدام ميزتين بصريتين مزدوجتين

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
جريت: تحسين التوصيف الصوتي للصور باستخدام نموذج الترانسفورمر بشكل أسرع وأفضل من خلال استخدام ميزتين بصريتين مزدوجتين
الملخص

الأساليب الحالية الرائدة في وصف الصور تستخدم ميزات قائمة على المناطق، نظرًا لتقديمها معلومات على مستوى الكائنات، وهي ضرورية لوصف محتوى الصور؛ وتُستخرج هذه الميزات عادةً باستخدام كاشف كائنات مثل Faster R-CNN. ومع ذلك، تواجه هذه الأساليب عدة مشكلات، مثل نقص المعلومات السياقية، وخطر الكشف غير الدقيق، والتكلفة الحسابية العالية. يمكن التغلب على المشكلتين الأولى والثانية من خلال إضافة ميزات قائمة على الشبكة. لكن لا تزال هناك مسألة غير مُحَلّة حول كيفية استخراج هذه الميزات من نوعين مختلفين ودمجها معًا. تُقدّم هذه الورقة بنية عصبية قائمة بالكامل على مُحَوِّلات (Transformer-only)، وتُسمى GRIT (Transformer لوصف الصور القائمة على الشبكة والمناطق)، التي تُستخدم بشكل فعّال في استغلال النوعين من الميزات البصرية لتحسين جودة النصوص الوصفيّة. تقوم GRIT باستبدال كاشف الشبكة العصبية التقليدي القائم على CNN المستخدم في الطرق السابقة بكاشف مستند إلى DETR، مما يجعلها أسرع من حيث الحسابات. علاوةً على ذلك، فإن تصميمها المتكامل الذي يعتمد فقط على المحولات يمكّن من تدريب النموذج بشكل منتهٍ (end-to-end). ويؤدي هذا التصميم المبتكر، إلى جانب دمج الميزات البصرية المزدوجة، إلى تحسين كبير في الأداء. وتُظهر النتائج التجريبية على عدة معايير لوصف الصور أن GRIT تتفوّق على الطرق السابقة من حيث دقة الاستنتاج وسرعة الأداء.