LlamBERT: Großskalige kostengünstige Datenannotation in der NLP

Große Sprachmodelle (LLMs), wie GPT-4 und Llama 2, zeigen beachtliche Leistungsfähigkeit bei einer Vielzahl von Aufgaben im Bereich des natürlichen Sprachverstehens (Natural Language Processing, NLP). Trotz ihrer Effektivität stellen die hohen Kosten, die mit ihrer Nutzung verbunden sind, eine Herausforderung dar. Wir stellen LlamBERT vor, einen hybriden Ansatz, der LLMs nutzt, um eine kleine Teilmenge großer, unbeschrifteter Datensätze zu annotieren, und die Ergebnisse anschließend zur Feinabstimmung von Transformer-Encodern wie BERT und RoBERTa heranzieht. Diese Strategie wird an zwei unterschiedlichen Datensätzen evaluiert: dem IMDb-Review-Datensatz und dem UMLS Meta-Thesaurus. Unsere Ergebnisse zeigen, dass der LlamBERT-Ansatz zwar eine geringfügige Reduktion der Genauigkeit aufweist, jedoch eine erheblich bessere Kosten-Nutzen-Relation bietet.