Phrase blessée
La tâche de complétion de phrases blessantes, qui relève du domaine du traitement automatique des langues (TAL), vise à évaluer et mesurer la capacité d'un modèle de langage à générer du contenu nuisible lorsqu'il complète des phrases. Cette tâche teste systématiquement les réponses du modèle à des prompts spécifiques afin d'identifier les sorties susceptibles de causer un préjudice psychologique ou émotionnel. Son objectif est d'améliorer la sécurité et la responsabilité sociale du modèle, de réduire les impacts négatifs potentiels, et d'assurer que le contenu généré soit plus sain et positif. Cette recherche est d'une grande valeur pour optimiser l'environnement d'application des modèles de langage et améliorer l'expérience utilisateur.