Große Sprachmodelle für die aspektbasierte Sentimentanalyse

Große Sprachmodelle (LLMs) bieten unvergleichliche Fähigkeiten im Textabschluss. Als allgemeine Modelle können sie eine Vielzahl von Aufgaben übernehmen, einschließlich solcher, die spezialisierte Modelle typischerweise erfüllen. Wir bewerten die Leistung von GPT-4 und GPT-3.5 in Null-Shot-, Few-Shot- und Fine-Tuning-Szenarien bei der aspektbasierten Sentimentanalyse (ABSA). Das fine-tuned GPT-3.5 erreicht eine state-of-the-art F1-Score von 83,8 bei der gemeinsamen Aufgabe der Aspekt-Element-Extraktion und Polaritätsklassifikation im Rahmen der SemEval-2014-Aufgabe 4 und übertrifft damit InstructABSA [@scaria_instructabsa_2023] um 5,7 %. Dieser Leistungsfortschritt geht jedoch mit einer 1000-fach höheren Anzahl an Modellparametern und damit verbundenen erhöhten Inferenzkosten einher. Wir diskutieren die Kosten-Leistungs-Abwägungen verschiedener Modelle und analysieren typische Fehler, die sie machen. Unsere Ergebnisse deuten zudem darauf hin, dass detaillierte Prompt-Formulierungen die Leistung in Null-Shot- und Few-Shot-Szenarien verbessern, jedoch für fine-tuned Modelle nicht erforderlich sind. Diese Erkenntnisse sind für Praktiker relevant, die bei der Anwendung von LLMs für ABSA die Wahl zwischen Prompt-Engineering und Fine-Tuning treffen müssen.