HyperAIHyperAI
vor 11 Tagen

LaMini-LM: Eine vielfältige Herde von abgeleiteten Modellen aus großskaligen Anweisungen

Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji
LaMini-LM: Eine vielfältige Herde von abgeleiteten Modellen aus großskaligen Anweisungen
Abstract

Große Sprachmodelle (LLMs), die durch Anweisungsfine-Tuning optimiert wurden, zeigen herausragende generative Fähigkeiten. Allerdings sind diese Modelle ressourcenintensiv. Um dieses Problem zu mildern, untersuchen wir die Wissens-Distillation von instruktionsgefeinerten LLMs in deutlich kleinere Modelle. Dazu entwickeln wir sorgfältig eine umfangreiche Sammlung von 2,58 Millionen Anweisungen, die sowohl auf bestehenden als auch auf neu generierten Anweisungen basieren. Neben ihrer Größe gestalten wir unsere Anweisungen so, dass sie ein breites Spektrum an Themen abdecken, um Vielfalt zu gewährleisten. Eine umfassende Analyse unseres Anweisungsdatasets bestätigt dessen Vielfalt, und wir generieren Antworten zu diesen Anweisungen mithilfe von gpt-3.5-turbo. Auf Basis dieser Anweisungen fine-tunen wir eine Vielzahl unterschiedlicher Modelle, die gemeinsam als LaMini-LM bezeichnet werden und sowohl Encoder-Decoder- als auch Decoder-only-Modelle unterschiedlicher Größe umfassen. Wir bewerten die Leistung unserer Modelle anhand automatisierter Metriken auf 15 verschiedenen Benchmarks für natürliche Sprachverarbeitung (NLP) sowie durch menschliche Bewertung. Die Ergebnisse zeigen, dass unsere vorgeschlagenen LaMini-LM-Modelle mit etablierten Benchmarks vergleichbar sind, gleichzeitig aber deutlich kleiner in der Größe sind.

LaMini-LM: Eine vielfältige Herde von abgeleiteten Modellen aus großskaligen Anweisungen | Neueste Forschungsarbeiten | HyperAI