HyperAIHyperAI
منذ 17 أيام

فيليو: النماذج الطرفية البصرية اللغوية الرائدة المطبقة على الصور الكارهة

Niklas Muennighoff
فيليو: النماذج الطرفية البصرية اللغوية الرائدة المطبقة على الصور الكارهة
الملخص

تُقدّم هذه الدراسة "فيليو" (Vilio)، وهي تنفيذ لنماذج الرؤية واللغة الحديثة وتطبيقاتها على مجموعة بيانات "الملصقات الكارهة" (Hateful Memes Dataset). تم دمج النماذج المُطبّقة في بنية برمجية موحدة، مع تعديلها لتحقيق أداءً أفضل. ويهدف "فيليو" إلى توفير نقطة بداية سهلة الاستخدام لأي مشكلة تتضمن تحليل الرؤية واللغة. وحقق مزيج من خمسة نماذج مختلفة للرؤية واللغة (V+L) المُطبّقة في "فيليو" المركز الثاني في مسابقة "الملصقات الكارهة" بين 3300 مشاركًا. ويمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/Muennighoff/vilio.

فيليو: النماذج الطرفية البصرية اللغوية الرائدة المطبقة على الصور الكارهة | أحدث الأوراق البحثية | HyperAI