
대규모 언어 모델(Large language models, LLMs)은 전례 없는 텍스트 완성 능력을 제공한다. 일반 모델로서, 이들은 더 전문적인 모델들이 수행하는 다양한 역할도 수행할 수 있다. 본 연구에서는 GPT-4와 GPT-3.5가 Aspect-Based Sentiment Analysis(ABSA) 과제에서 zero-shot, few-shot, 그리고 fine-tuned 설정에서의 성능을 평가한다. Fine-tuned된 GPT-3.5는 SemEval-2014 Task 4의 통합적인 Aspect Term Extraction 및 Polarity Classification 과제에서 최신 기준(F1 score 83.8)을 달성하였으며, InstructABSA [@scaria_instructabsa_2023]에 비해 5.7% 향상된 성능을 보였다. 그러나 이 성능 향상은 모델 파라미터 수가 약 1,000배 증가함에 따라 추론 비용이 크게 증가하는 대가를 치르는 것이다. 본 연구에서는 다양한 모델 간의 성능-비용 트레이드오프를 논의하고, 각 모델이 범하는 일반적인 오류 유형을 분석한다. 또한, 결과는 zero-shot 및 few-shot 설정에서는 구체적인 프롬프트(prompt)가 성능 향상에 기여하지만, fine-tuned 모델의 경우는 반드시 필요하지 않다는 점을 시사한다. 이러한 증거는 ABSA 작업에 LLM을 활용할 때 프롬프트 엔지니어링과 fine-tuning 중 어떤 방식을 선택할지 고민하는 실무자들에게 중요한 참고 자료가 된다.