il y a 8 jours

Adaptation robuste des grands modèles multimodaux pour la détection de mémoes haineux augmentée par recherche

Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne

Résumé

Les mémos haineux sont devenus une préoccupation majeure sur Internet, nécessitant des systèmes automatisés robustes de détection. Bien que les modèles multimodaux vision-langage (LMM) aient montré un potentiel prometteur pour la détection des mémos haineux, ils font face à des défis notables, tels qu’une performance sous-optimale et une capacité limitée à généraliser hors-domaine. Des études récentes révèlent également les limites tant de la formation supervisée (SFT) que de l’apprentissage contextuel lorsqu’elles sont appliquées aux LMM dans ce cadre. Pour remédier à ces problèmes, nous proposons un cadre d’adaptation robuste pour la détection des mémos haineux, qui améliore à la fois la précision dans le domaine cible et la généralisation transversale tout en préservant les capacités générales de vision-langage des LMM. Des expériences menées sur six jeux de données de classification de mémos démontrent que notre approche atteint des performances de pointe, surpassant même des systèmes agents plus volumineux. En outre, notre méthode génère des justifications de meilleure qualité pour expliquer le contenu haineux par rapport à la SFT standard, améliorant ainsi l’interprétabilité du modèle.