Expertenmischung (MoE)
Mixture of Experts (MoE) ist eine Technik des maschinellen Lernens, bei der mehrere Expertennetzwerke (Lernende) verwendet werden, um den Problemraum in homogene Bereiche zu unterteilen.
Ein wesentlicher Vorteil von Expertenmischungsmodellen (MoE) besteht darin, dass sie mit weitaus weniger Rechenressourcen effektiv vortrainiert werden können als dichte Modelle. Dies bedeutet, dass die Größe eines Modells oder Datensatzes bei gleichem Rechenbudget erheblich gesteigert werden kann. Insbesondere während der Vortrainingsphase können Expertenmischungsmodelle häufig schneller das gleiche Qualitätsniveau erreichen als dichte Modelle.
Im Kontext des Transformer-Modells besteht MoE aus zwei Hauptteilen:
- Spärliche MoE-Schicht: Ersetzt die traditionelle dichte Feedforward-Netzwerkschicht (FFN). Die MoE-Schicht enthält mehrere „Experten“ (z. B. 8), von denen jeder ein unabhängiges neuronales Netzwerk ist. Bei diesen Experten handelt es sich normalerweise um FFNs, es kann sich jedoch auch um komplexere Netzwerke oder sogar um MoEs selbst handeln, die eine Hierarchie von MoEs bilden.
- Ein Gated-Netzwerk oder Router: Wird verwendet, um zu entscheiden, welche Token welchem Experten zugewiesen werden. In der folgenden Abbildung ist beispielsweise dem zweiten Experten das Token „Mehr“ zugewiesen, während dem ersten Netzwerk das Token „Parameter“ zugewiesen ist. Es ist zu beachten, dass ein Token mehreren Experten zugewiesen werden kann. Die effiziente Zuweisung von Token an geeignete Experten ist eine der wichtigsten Fragen, die bei der Verwendung der MoE-Technologie berücksichtigt werden müssen. Dieser Router besteht aus einer Reihe lernbarer Parameter, die zusammen mit dem Rest des Modells vortrainiert sind.

Bildquelle: Schalttransformatoren Papier Beispiel für eine MoE-Schicht
Die Designidee von MoE (Mixed Expert Model) lautet: Im Transformer-Modell wird jede FFN-Schicht (Feedforward Network) durch eine MoE-Schicht ersetzt, die aus einem Gating-Netzwerk und mehreren „Experten“ besteht.
Herausforderungen des Expertenmix (MoE)
Obwohl Expertenmischungsmodelle (MoE) im Vergleich zu dichten Modellen mehrere bedeutende Vorteile bieten, wie z. B. effizienteres Vortraining und schnellere Inferenz, sind sie auch mit einigen Herausforderungen verbunden:
- Trainingsherausforderungen: Obwohl MoEs ein effizienteres rechnerisches Vortraining erreichen können, stehen sie in der Feinabstimmungsphase häufig vor dem Problem unzureichender Generalisierungsfähigkeit und neigen auf lange Sicht zur Überanpassung.
- Herausforderung zum logischen Denken: Obwohl MoE-Modelle eine große Anzahl von Parametern haben können, wird nur ein Teil davon während der Inferenz verwendet, was ihre Inferenz schneller macht als bei dichten Modellen mit der gleichen Anzahl von Parametern. Allerdings müssen bei diesem Modell alle Parameter in den Speicher geladen werden, der Speicherbedarf ist also sehr hoch. Nehmen wir beispielsweise ein MoE wie Mixtral 8x7B: Es wird ausreichend VRAM benötigt, um ein dichtes Modell mit 47B-Parametern aufzunehmen. Der Grund, warum es 47 B statt 8 x 7 B = 56 B sind, liegt darin, dass im MoE-Modell nur die FFN-Schicht als unabhängiger Experte betrachtet wird, während die anderen Parameter des Modells gemeinsam genutzt werden. Darüber hinaus ist die Inferenzgeschwindigkeit (in FLOPs) unter der Annahme, dass nur zwei Experten pro Token verwendet werden, ähnlich wie bei der Verwendung eines 12B-Modells (anstelle eines 14B-Modells), da zwar 2x7B-Matrixmultiplikationen durchgeführt werden, bestimmte Schichten jedoch gemeinsam genutzt werden.