منذ 17 أيام
فيليو: النماذج الطرفية البصرية اللغوية الرائدة المطبقة على الصور الكارهة
Niklas Muennighoff

الملخص
تُقدّم هذه الدراسة "فيليو" (Vilio)، وهي تنفيذ لنماذج الرؤية واللغة الحديثة وتطبيقاتها على مجموعة بيانات "الملصقات الكارهة" (Hateful Memes Dataset). تم دمج النماذج المُطبّقة في بنية برمجية موحدة، مع تعديلها لتحقيق أداءً أفضل. ويهدف "فيليو" إلى توفير نقطة بداية سهلة الاستخدام لأي مشكلة تتضمن تحليل الرؤية واللغة. وحقق مزيج من خمسة نماذج مختلفة للرؤية واللغة (V+L) المُطبّقة في "فيليو" المركز الثاني في مسابقة "الملصقات الكارهة" بين 3300 مشاركًا. ويمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/Muennighoff/vilio.