il y a 11 jours

Modèles de langage massifs pour l'analyse de sentiment basée sur les aspects

Paul F. Simmering, Paavo Huoviala

Résumé

Les grands modèles linguistiques (LLM) offrent des capacités sans précédent en complétion de texte. En tant que modèles généraux, ils sont capables de remplir une large gamme de rôles, y compris ceux des modèles plus spécialisés. Nous évaluons les performances de GPT-4 et de GPT-3.5 dans des configurations zéro-shot, few-shot et fine-tuning sur la tâche d'analyse de sentiment basée sur les aspects (ABSA). Le modèle GPT-3.5 fine-tuné atteint un score F1 de pointe, à hauteur de 83,8 %, sur la tâche combinée d'extraction de termes d'aspect et de classification de polarité dans le cadre du SemEval-2014 Task 4, surpassant ainsi InstructABSA [@scaria_instructabsa_2023] de 5,7 %. Toutefois, ce gain de performance s'accompagne d'un coût élevé : 1 000 fois plus de paramètres, entraînant une augmentation significative des coûts d'inférence. Nous discutons des compromis entre coût et performance observés chez les différents modèles, et analysons les erreurs typiques qu'ils commettent. Nos résultats indiquent également que des prompts détaillés améliorent les performances dans les configurations zéro-shot et few-shot, mais ne sont pas nécessaires pour les modèles fine-tunés. Ces observations sont particulièrement pertinentes pour les praticiens confrontés au choix entre l'ingénierie de prompts et le fine-tuning lors de l'utilisation de LLM pour l'ABSA.