HyperAIHyperAI

Command Palette

Search for a command to run...

VLCap: الرؤية واللغة مع التعلم المقابل للتصوير المرئي المتماسك لوصف الفقرات المرئية

Kashu Yamazaki Sang Truong Khoa Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le

الملخص

في هذه الورقة، نستفيد من عملية الإدراك البشري، التي تتضمن التفاعل بين الرؤية واللغة، لتكوين وصف مترابط لمقاطع الفيديو غير المُقطعة. نقترح ميزات متعددة الوسائط تُعرف بـ (VL)، تتكون من نوعين من الوسائط: (أ) وسائط الرؤية لالتقاط المحتوى البصري الشامل للمنظر ككل، و(ب) وسائط اللغة لاستخراج وصف العناصر الموجودة في المشهد، سواء كانت من الكائنات البشرية أو غير البشرية (مثل الحيوانات والمركبات، إلخ)، بالإضافة إلى العناصر البصرية وغير البصرية (مثل العلاقات والأنشطة، إلخ). علاوةً على ذلك، نقترح تدريب النموذج المُقترح VLCap باستخدام خسارة تعلم تقابلية لوسائط الرؤية واللغة (VL). أظهرت التجارب والدراسات التحليلية على مجموعتي بيانات ActivityNet Captions وYouCookII أن نموذج VLCap يتفوق على الطرق الحديثة الأفضل (SOTA) من حيث دقة الأداء وتنوع النتائج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp