17日前
LlamBERT:自然言語処理における大規模かつ低コストなデータアノテーション
Bálint Csanády, Lajos Muzsai, Péter Vedres, Zoltán Nádasdy, András Lukács

要約
大規模言語モデル(LLM)であるGPT-4やLlama 2などは、自然言語処理(NLP)の多岐にわたるタスクにおいて優れた性能を発揮している。しかし、その利用に伴う高いコストが課題となっている。本研究では、LLMを活用して大規模な未ラベルデータベースの小さなサブセットを自動ラベル付けし、その結果を用いてBERTやRoBERTaなどのトランスフォーマー符号化器のファインチューニングを行う、ハイブリッドアプローチ「LlamBERT」を提案する。この戦略は、IMDbレビューデータセットおよびUMLSメタ・ザウスラスの2つの多様なデータセット上で評価された。その結果、LlamBERTアプローチはわずかに精度に若干の低下を伴うものの、大幅なコスト効率の向上を実現したことが明らかになった。