منذ 7 أشهر

الملخص

في هذه الورقة، نصف طريقة جديدة تُسمى VinVL+L، والتي تُثري التمثيلات البصرية (أي علامات الكائنات وسمات المناطق) لطريقة الحاسة واللغة (VL) الرائدة حاليًا – VinVL – ببيانات الموقع. وللتحقق من أهمية هذا النوع من البيانات الوصفية (metadata) بالنسبة لنموذج VL، قمنا بـ (i) تدريب نموذج Swin-B على مجموعة بيانات Places365 والحصول على مجموعات إضافية من السمات البصرية وعلامات الكائنات؛ وقد تم إتاحة هذه المجموعات للجمهور لضمان إمكانية إعادة التكرار والتجارب الإضافية، (ii) إجراء تحديث معماري على الطريقة الحالية VinVL لدمج مجموعات السمات الجديدة، و (iii) تقديم تقييم كمي ونوعي. وباستخدام مجرد بيانات موقع ثنائية (binary location metadata)، تقدم طريقة VinVL+L تحسينًا تدريجيًا على النموذج الرائد VinVL في مهام الإجابة على الأسئلة البصرية (VQA). فقد حققت طريقة VinVL+L دقة قدرها 64.85%، وزيادة في الأداء بمقدار +0.32% من حيث الدقة على مجموعة بيانات GQA؛ وقد تم التحقق من الأهمية الإحصائية للتمثيلات الجديدة باستخدام طريقة التحديد العشوائي التقريبي (Approximate Randomization). الكود والسمات الجديدة المولدة متاحة على: https://github.com/vyskocj/VinVL-L.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Lukáš Picek Jiří Vyskočil

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lukáš Picek Jiří Vyskočil

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lukáš Picek Jiří Vyskočil

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VinVL+L: تعميق التمثيل البصري بسياق الموقع في التساؤل والإجابة البصرية

Lukáš Picek Jiří Vyskočil

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VinVL+L: تعميق التمثيل البصري بسياق الموقع في التساؤل والإجابة البصرية

Lukáš Picek Jiří Vyskočil

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VinVL+L: تعميق التمثيل البصري بسياق الموقع في التساؤل والإجابة البصرية

Lukáš Picek Jiří Vyskočil

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters