HyperAIHyperAI
منذ 17 أيام

LlamBERT: تسمية بيانات على نطاق واسع وبتكلفة منخفضة في معالجة اللغة الطبيعية

Bálint Csanády, Lajos Muzsai, Péter Vedres, Zoltán Nádasdy, András Lukács
LlamBERT: تسمية بيانات على نطاق واسع وبتكلفة منخفضة في معالجة اللغة الطبيعية
الملخص

نموذجات اللغة الكبيرة (LLMs)، مثل GPT-4 وLlama 2، تُظهر كفاءة مميزة في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). وعلى الرغم من فعاليتها، فإن التكاليف العالية المرتبطة باستخدامها تمثل تحديًا. نقدم في هذا العمل نهجًا هجينًا يُسمى LlamBERT، يعتمد على استخدام نماذج اللغة الكبيرة لتسمية مجموعة صغيرة من قواعد البيانات الكبيرة غير المُعلَّمة، ثم استخدام النتائج الناتجة لتمييع نماذج المحولات مثل BERT وRoBERTa. تم تقييم هذا الأسلوب على مجموعتي بيانات متنوعتين: مجموعة بيانات مراجعات IMDb، وقاموس UMLS Meta-Thesaurus. تشير النتائج إلى أن نهج LlamBERT يُقلّل قليلاً من الدقة، لكنه يوفر كفاءة تكلفة أعلى بشكل كبير.