منذ 6 أشهر

الملخص

تحقيق أساليب المُحوّل الحديثة تقدمًا ملحوظًا في مهمة كشف التفاعل البشري-الكائن (HOID) من خلال الاستفادة من كشف DETR والمعرفة السابقة لنموذج الرؤية واللغة (VLM). ومع ذلك، تعاني هذه الأساليب من أوقات تدريب طويلة وصعوبات في التحسين المعقدة ناتجة عن التداخل بين كشف الكائنات وتمييز تفاعلات HOI أثناء عملية التفكيك. وبشكل خاص، تعاني تضمينات الاستعلام المستخدمة لتوقع العلامات والمربعات من تمثيلات غامضة، ولا يتم أخذ الفجوة بين توقع علامات تفاعلات HOI وعلامات الأفعال في الاعتبار. ولحل هذه التحديات، نقدّم نموذج SOV-STG-VLA الذي يتكوّن من ثلاث مكونات رئيسية: تفكيك موضوع-كائن-فعل (SOV)، وتقنيّة إزالة الضوضاء الموجهة بالهدف المحدد (STG)، ومستشار بصرّي لغوي (VLA). يفصل مُفكّك SOV بين كشف الكائنات وتمييز الأفعال من خلال تمثيل جديد للمنطقة التفاعلية. وتتعلم استراتيجية إزالة الضوضاء STG تضمينات العلامات باستخدام معلومات الحقيقة الأساسية لتوجيه التدريب والاستنتاج. ويحقق نموذج SOV-STG سرعة تقارب عالية ودقة كبيرة، ويُعد أساسًا لتمكين VLA من دمج المعرفة السابقة من VLM. ونقدّم مُفكّكًا مستشارًا بصريًا لدمج معلومات المنطقة التفاعلية والمعرفة البصرية من VLM، بالإضافة إلى جسر توقع الفعل-تفاعل HOI لتعزيز تعلم تمثيل التفاعل. يُحسّن VLA بشكل ملحوظ أداء SOV-STG، ويحقق أداءً من الدرجة الأولى (SOTA) باستخدام فقط سدس عدد دورات التدريب مقارنةً بالحلول الحديثة المتميزة. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/cjw2021/SOV-STG-VLA

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التركيز على ما يجب فك تشفيره وما يجب تدريسه: فك تشفير SOV مع توجيه مُنَقِّي الضوضاء المُوجَّه لهدف مُحدَّد ومستشار بصري لغوي

Junwen Chen Yingcheng Wang Keiji Yanai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters