
要約
大規模言語モデル(LLM)は、これまでにないテキスト補完能力を提供している。汎用モデルとして、専門的モデルに特化した役割をも果たすことができる。本研究では、GPT-4およびGPT-3.5が、アスペクトベース感情分析(ABSA)タスクにおいて、ゼロショット、フェイショット、ファインチューニング設定の下でどのように性能を発揮するかを評価した。ファインチューニングされたGPT-3.5は、SemEval-2014 Task 4におけるアスペクト語抽出と極性分類の統合タスクで、83.8のF1スコアを達成し、InstructABSA [@scaria_instructabsa_2023] に対して5.7%の向上を実現した。しかしながら、この性能向上はモデルパラメータ数が1000倍に増加するという代償を伴い、推論コストが著しく上昇する。本研究では、異なるモデルにおけるコスト対性能のトレードオフを議論し、各モデルが犯す典型的な誤りを分析した。また、結果から、ゼロショットおよびフェイショット設定では詳細なプロンプトが性能向上に寄与することが示されたが、ファインチューニング済みモデルにおいてはその必要性は低いことが明らかになった。この知見は、ABSAタスクにLLMを適用する際、プロンプト工学とファインチューニングのどちらを選ぶかを検討する実務家にとって重要である。