HyperAIHyperAI
منذ 3 أشهر

التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي

Junwen Chen, Yingcheng Wang, Keiji Yanai
التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي
الملخص

تحقيق أساليب المُحوّل الحديثة تقدمًا ملحوظًا في مهمة كشف التفاعل البشري-الكائن (HOID) من خلال الاستفادة من كشف DETR والمعرفة السابقة لنموذج الرؤية واللغة (VLM). ومع ذلك، تعاني هذه الأساليب من أوقات تدريب طويلة وصعوبات في التحسين المعقدة ناتجة عن التداخل بين كشف الكائنات وتمييز تفاعلات HOI أثناء عملية التفكيك. وبشكل خاص، تعاني تضمينات الاستعلام المستخدمة لتوقع العلامات والمربعات من تمثيلات غامضة، ولا يتم أخذ الفجوة بين توقع علامات تفاعلات HOI وعلامات الأفعال في الاعتبار. ولحل هذه التحديات، نقدّم نموذج SOV-STG-VLA الذي يتكوّن من ثلاث مكونات رئيسية: تفكيك موضوع-كائن-فعل (SOV)، وتقنيّة إزالة الضوضاء الموجهة بالهدف المحدد (STG)، ومستشار بصرّي لغوي (VLA). يفصل مُفكّك SOV بين كشف الكائنات وتمييز الأفعال من خلال تمثيل جديد للمنطقة التفاعلية. وتتعلم استراتيجية إزالة الضوضاء STG تضمينات العلامات باستخدام معلومات الحقيقة الأساسية لتوجيه التدريب والاستنتاج. ويحقق نموذج SOV-STG سرعة تقارب عالية ودقة كبيرة، ويُعد أساسًا لتمكين VLA من دمج المعرفة السابقة من VLM. ونقدّم مُفكّكًا مستشارًا بصريًا لدمج معلومات المنطقة التفاعلية والمعرفة البصرية من VLM، بالإضافة إلى جسر توقع الفعل-تفاعل HOI لتعزيز تعلم تمثيل التفاعل. يُحسّن VLA بشكل ملحوظ أداء SOV-STG، ويحقق أداءً من الدرجة الأولى (SOTA) باستخدام فقط سدس عدد دورات التدريب مقارنةً بالحلول الحديثة المتميزة. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/cjw2021/SOV-STG-VLA