HyperAIHyperAI

Command Palette

Search for a command to run...

التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

تحقيق أساليب المُحوّل الحديثة تقدمًا ملحوظًا في مهمة كشف التفاعل البشري-الكائن (HOID) من خلال الاستفادة من كشف DETR والمعرفة السابقة لنموذج الرؤية واللغة (VLM). ومع ذلك، تعاني هذه الأساليب من أوقات تدريب طويلة وصعوبات في التحسين المعقدة ناتجة عن التداخل بين كشف الكائنات وتمييز تفاعلات HOI أثناء عملية التفكيك. وبشكل خاص، تعاني تضمينات الاستعلام المستخدمة لتوقع العلامات والمربعات من تمثيلات غامضة، ولا يتم أخذ الفجوة بين توقع علامات تفاعلات HOI وعلامات الأفعال في الاعتبار. ولحل هذه التحديات، نقدّم نموذج SOV-STG-VLA الذي يتكوّن من ثلاث مكونات رئيسية: تفكيك موضوع-كائن-فعل (SOV)، وتقنيّة إزالة الضوضاء الموجهة بالهدف المحدد (STG)، ومستشار بصرّي لغوي (VLA). يفصل مُفكّك SOV بين كشف الكائنات وتمييز الأفعال من خلال تمثيل جديد للمنطقة التفاعلية. وتتعلم استراتيجية إزالة الضوضاء STG تضمينات العلامات باستخدام معلومات الحقيقة الأساسية لتوجيه التدريب والاستنتاج. ويحقق نموذج SOV-STG سرعة تقارب عالية ودقة كبيرة، ويُعد أساسًا لتمكين VLA من دمج المعرفة السابقة من VLM. ونقدّم مُفكّكًا مستشارًا بصريًا لدمج معلومات المنطقة التفاعلية والمعرفة البصرية من VLM، بالإضافة إلى جسر توقع الفعل-تفاعل HOI لتعزيز تعلم تمثيل التفاعل. يُحسّن VLA بشكل ملحوظ أداء SOV-STG، ويحقق أداءً من الدرجة الأولى (SOTA) باستخدام فقط سدس عدد دورات التدريب مقارنةً بالحلول الحديثة المتميزة. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/cjw2021/SOV-STG-VLA


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي | مستندات | HyperAI