HyperAIHyperAI
منذ 2 أشهر

الإدراك البصري الشائع في النماذج أحادية الوسائط والمتنوعة الوسائط المسبقة التدريب

Chenyu Zhang; Benjamin Van Durme; Zhuowan Li; Elias Stengel-Eskin
الإدراك البصري الشائع في النماذج أحادية الوسائط والمتنوعة الوسائط المسبقة التدريب
الملخص

المعرفة الشائعة لدينا عن الأشياء تشمل السمات البصرية النموذجية لها؛ نعلم أن الموز يكون عادةً أصفرًا أو أخضرًا، وليس بنفسجيًا. تخضع مجموعات النصوص والصور للتحيز في التقرير، مما يمثل هذه المعرفة العالمية بدرجات مختلفة من الدقة. في هذا البحث، نستكشف إلى أي مدى تلتقط النماذج الأحادية الوضع (اللغوية فقط) والنماذج المتعددة الأوضاع (الصورة واللغة) مجموعة واسعة من السمات البصرية البارزة. لهذا الغرض، قمنا بإنشاء مجموعة بيانات اختبارات الحس البصري الشائع (ViComTe) التي تغطي خمسة أنواع من الخصائص (اللون، الشكل، المادة، الحجم، والظهور البصري المشترك) لأكثر من 5000 موضوع. نتحقق من صحة هذه المجموعة من البيانات بعرض أن بيانات اللون المرتبطة لدينا تتوافق بشكل أفضل بكثير مع أحكام الألوان التي تم جمعها من الجمهور بواسطة بايك وآخرون (2021). ثم نستخدم مجموعتنا من البيانات لتقييم النماذج الأحادية الوضع المدربة مسبقًا والنماذج المتعددة الأوضاع. تشير نتائجنا إلى أن النماذج المتعددة الأوضاع تقوم بإعادة بناء توزيعات السمات بشكل أفضل، ولكنها لا تزال عرضة للتحيز في التقرير. بالإضافة إلى ذلك، فإن زيادة حجم النموذج لا تعزز الأداء، مما يشير إلى أن مفتاح الحس البصري الشائع يكمن في البيانات.

الإدراك البصري الشائع في النماذج أحادية الوسائط والمتنوعة الوسائط المسبقة التدريب | أحدث الأوراق البحثية | HyperAI