
摘要
大型语言模型(LLMs)提供了前所未有的文本补全能力。作为通用模型,它们能够胜任多种任务,甚至可替代部分专用模型。本文评估了GPT-4与GPT-3.5在零样本(zero-shot)、少样本(few-shot)以及微调(fine-tuned)设置下在基于方面的情感分析(Aspect-Based Sentiment Analysis, ABSA)任务中的表现。其中,微调后的GPT-3.5在SemEval-2014任务4的联合方面词项提取与情感极性分类任务上取得了83.8的F1分数,达到当前最先进水平,较InstructABSA [@scaria_instructabsa_2023] 提升5.7%。然而,这一性能提升伴随着模型参数量增加约1000倍,导致推理成本显著上升。本文进一步探讨了不同模型在性能与成本之间的权衡关系,并分析了各类模型常见的错误类型。研究结果还表明,在零样本和少样本场景下,详细提示(detailed prompts)有助于提升模型表现,但对于微调后的模型而言,此类提示并非必要。该发现对实践者具有重要参考价值,有助于在使用LLMs进行ABSA任务时,权衡提示工程(prompt engineering)与模型微调之间的选择。