HyperAIHyperAI
منذ 18 أيام

VinVL+L: تعميق التمثيل البصري بسياق الموقع في التساؤل والإجابة البصرية

{Lukáš Picek, Jiří Vyskočil}
VinVL+L: تعميق التمثيل البصري بسياق الموقع في التساؤل والإجابة البصرية
الملخص

في هذه الورقة، نصف طريقة جديدة تُسمى VinVL+L، والتي تُثري التمثيلات البصرية (أي علامات الكائنات وسمات المناطق) لطريقة الحاسة واللغة (VL) الرائدة حاليًا – VinVL – ببيانات الموقع. وللتحقق من أهمية هذا النوع من البيانات الوصفية (metadata) بالنسبة لنموذج VL، قمنا بـ (i) تدريب نموذج Swin-B على مجموعة بيانات Places365 والحصول على مجموعات إضافية من السمات البصرية وعلامات الكائنات؛ وقد تم إتاحة هذه المجموعات للجمهور لضمان إمكانية إعادة التكرار والتجارب الإضافية، (ii) إجراء تحديث معماري على الطريقة الحالية VinVL لدمج مجموعات السمات الجديدة، و (iii) تقديم تقييم كمي ونوعي. وباستخدام مجرد بيانات موقع ثنائية (binary location metadata)، تقدم طريقة VinVL+L تحسينًا تدريجيًا على النموذج الرائد VinVL في مهام الإجابة على الأسئلة البصرية (VQA). فقد حققت طريقة VinVL+L دقة قدرها 64.85%، وزيادة في الأداء بمقدار +0.32% من حيث الدقة على مجموعة بيانات GQA؛ وقد تم التحقق من الأهمية الإحصائية للتمثيلات الجديدة باستخدام طريقة التحديد العشوائي التقريبي (Approximate Randomization). الكود والسمات الجديدة المولدة متاحة على: https://github.com/vyskocj/VinVL-L.

VinVL+L: تعميق التمثيل البصري بسياق الموقع في التساؤل والإجابة البصرية | أحدث الأوراق البحثية | HyperAI