HyperAIHyperAI
منذ 16 أيام

VLT: نموذج التحويل البصري-اللغوي وتحديد الاستعلام لتقسيم الإشارة

Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang
VLT: نموذج التحويل البصري-اللغوي وتحديد الاستعلام لتقسيم الإشارة
الملخص

نُقدّم إطارًا يُعرف بـ"Transformer البصرية-اللغوية" (VLT) للتحليل الإشاري، بهدف تعزيز التفاعلات العميقة بين المعلومات متعددة الوسائط وتحسين الفهم الشامل للسمات البصرية-اللغوية. توجد طرق مختلفة لفهم التركيز الديناميكي لتعبير لغوي، خاصة عند التفاعل مع الصورة. ومع ذلك، فإن الاستعلامات المُدرَّبة في الأطر الحالية لـ Transformer تكون ثابتة بعد التدريب، مما يجعلها غير قادرة على التعامل مع العشوائية والتنوع الكبير في التعبيرات اللغوية. لمعالجة هذه المشكلة، نقترح وحدة توليد الاستعلامات، التي تُولّد ديناميكيًا عدة مجموعات من الاستعلامات المخصصة للمدخلات، لتمثيل الفهم المتنوع للتعبيرات اللغوية. وللعثور على أفضل تفسير بين هذه التفسيرات المتنوعة، بهدف إنتاج قناع أفضل، نقترح وحدة توازن الاستعلامات، التي تقوم باختياريًا بدمج الاستجابات المقابلة لمجموعة الاستعلامات. علاوةً على ذلك، لتعزيز قدرة النموذج على التعامل مع تعبيرات لغوية متنوعة، نأخذ بعين الاعتبار التعلُّم بين العينات، بهدف تزويد النموذج بشكل صريح بمعرفة فهم تعبيرات لغوية مختلفة لنفس الكائن. ونُقدّم تعلُّمًا تباينيًا مُقنَّعًا لتضييق الفروق بين السمات الناتجة عن تعبيرات مختلفة لنفس الكائن، في حين يُحافظ على التمييز بين سمات الكائنات المختلفة. ويُعدُّ النهج المقترح خفيف الوزن، ويحقق نتائج متميزة من حيث الأداء على مستوى الحد الأقصى في مجال التحليل الإشاري على خمسة مجموعات بيانات.

VLT: نموذج التحويل البصري-اللغوي وتحديد الاستعلام لتقسيم الإشارة | أحدث الأوراق البحثية | HyperAI