HyperAIHyperAI

Command Palette

Search for a command to run...

تكيّف قوي للنماذج الكبيرة متعددة الوسائط في الكشف عن الصور المسيئة المدعومة بالاسترجاع

Jingbiao Mei Jinghong Chen Guangyu Yang Weizhe Lin Bill Byrne

الملخص

أصبحت الصور الرمزية الكريهة (Hateful Memes) مصدر قلق كبير على الإنترنت، مما يستدعي وجود أنظمة آلية قوية للكشف عنها. وعلى الرغم من أن النماذج متعددة الوسائط (LMMs) أظهرت إمكانات واعدة في كشف الصور الرمزية الكريهة، إلا أنها تواجه تحديات كبيرة مثل الأداء غير الأمثل وقدرات التعميم المحدودة خارج نطاق البيانات المستخدمة في التدريب. وتكشف الدراسات الحديثة عن حدود كل من التدريب المخصص (SFT) والتعلم السياقي (in-context learning) عند تطبيقهما على النماذج متعددة الوسائط في هذا السياق. وللتغلب على هذه المشكلات، نقترح إطارًا متكيفًا قويًا للكشف عن الصور الرمزية الكريهة، يُحسّن من دقة الكشف داخل النطاق (in-domain) والقدرة على التعميم عبر النطاقات المختلفة، مع الحفاظ على القدرات العامة للرؤية واللغة الخاصة بالنماذج متعددة الوسائط. وقد أظهرت التجارب على ستة مجموعات بيانات تصنيف الصور الرمزية أداءً متقدمًا جدًا، يتفوق على الأنظمة الأكبر حجمًا التي تعتمد على الذكاء الوكلي (agentic systems). علاوةً على ذلك، تُنتج طريقةنا تبريرات ذات جودة أعلى لتفسير المحتوى الكريه مقارنة بالتدريب المخصص القياسي، مما يعزز شفافية النموذج وقابلية تفسيره.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp