HyperAIHyperAI

Command Palette

Search for a command to run...

الإدراك البصري الشائع في النماذج أحادية الوسائط والمتنوعة الوسائط المسبقة التدريب

Chenyu Zhang Benjamin Van Durme Zhuowan Li* Elias Stengel-Eskin*

الملخص

المعرفة الشائعة لدينا عن الأشياء تشمل السمات البصرية النموذجية لها؛ نعلم أن الموز يكون عادةً أصفرًا أو أخضرًا، وليس بنفسجيًا. تخضع مجموعات النصوص والصور للتحيز في التقرير، مما يمثل هذه المعرفة العالمية بدرجات مختلفة من الدقة. في هذا البحث، نستكشف إلى أي مدى تلتقط النماذج الأحادية الوضع (اللغوية فقط) والنماذج المتعددة الأوضاع (الصورة واللغة) مجموعة واسعة من السمات البصرية البارزة. لهذا الغرض، قمنا بإنشاء مجموعة بيانات اختبارات الحس البصري الشائع (ViComTe) التي تغطي خمسة أنواع من الخصائص (اللون، الشكل، المادة، الحجم، والظهور البصري المشترك) لأكثر من 5000 موضوع. نتحقق من صحة هذه المجموعة من البيانات بعرض أن بيانات اللون المرتبطة لدينا تتوافق بشكل أفضل بكثير مع أحكام الألوان التي تم جمعها من الجمهور بواسطة بايك وآخرون (2021). ثم نستخدم مجموعتنا من البيانات لتقييم النماذج الأحادية الوضع المدربة مسبقًا والنماذج المتعددة الأوضاع. تشير نتائجنا إلى أن النماذج المتعددة الأوضاع تقوم بإعادة بناء توزيعات السمات بشكل أفضل، ولكنها لا تزال عرضة للتحيز في التقرير. بالإضافة إلى ذلك، فإن زيادة حجم النموذج لا تعزز الأداء، مما يشير إلى أن مفتاح الحس البصري الشائع يكمن في البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الإدراك البصري الشائع في النماذج أحادية الوسائط والمتنوعة الوسائط المسبقة التدريب | مستندات | HyperAI