Densing-Gesetz
Densing Law ist ein neues Konzept für große Sprachmodelle (LLMs), das vom Team von Professor Liu Zhiyuan vom Natural Language Processing Laboratory der Tsinghua-Universität im Dezember 2024 vorgeschlagen wurde. Die Ergebnisse der Studie lauten:Densing Law von LLMs".
Das Densing-Gesetz beschreibt, dass die Leistungsdichte großer Sprachmodelle (LLMs) mit der Zeit exponentiell wächst. Die Fähigkeitsdichte wird als Verhältnis der effektiven Parametergröße zur tatsächlichen Parametergröße eines gegebenen LLM definiert, wobei sich die effektive Parametergröße auf die Anzahl der Parameter des Referenzmodells bezieht, die erforderlich sind, um die gleiche Leistung wie das Zielmodell zu erreichen. Dieses Gesetz zeigt die Leistung und Effizienz von LLMs auf verschiedenen Ebenen und bietet eine neue Perspektive zur Bewertung und Optimierung der Entwicklung von LLMs.
Durch die Analyse von 29 weit verbreiteten großen Open-Source-Modellen fand das Forschungsteam heraus, dass die maximale Fähigkeitsdichte von LLM im Laufe der Zeit exponentiell zunimmt und sich etwa alle 3,3 Monate (etwa 100 Tage) verdoppelt. Gemäß dem Dichtegesetz nimmt der Aufwand für die Modellinferenz mit der Zeit exponentiell ab. Von Januar 2023 bis heute wurden die Inferenzkosten von Modellen auf GPT-3.5-Ebene um das 266,7-fache gesenkt.
Das Dichtegesetz unterstreicht, wie wichtig es ist, ein Gleichgewicht zwischen Modellleistung und Effizienz zu finden, insbesondere angesichts der Herausforderungen durch den steigenden Bedarf an Rechenressourcen und die Umweltbelastung. Darüber hinaus weist dieses Gesetz auch darauf hin, dass vorhandene Modellkomprimierungsmethoden wie Beschneiden und Destillieren die Dichte komprimierter Modelle normalerweise nicht verbessern können, was darauf hindeutet, dass effektivere Modellkomprimierungsalgorithmen erforderlich sind, um die Dichte kleiner Modelle zu verbessern.