Übermäßig Große Neuronale Netze: Die Schicht mit Sparsely-Gated Mixture-of-Experts

Die Fähigkeit eines neuronalen Netzes, Informationen aufzunehmen, ist durch die Anzahl seiner Parameter begrenzt. Die bedingte Berechnung, bei der Teile des Netzes je nach Beispiel aktiviert werden, wurde theoretisch als Möglichkeit vorgeschlagen, die Modellkapazität erheblich zu erhöhen, ohne dass sich die Rechenleistung proportional steigert. In der Praxis gibt es jedoch erhebliche algorithmische und Leistungsprobleme. In dieser Arbeit adressieren wir diese Herausforderungen und verwirklichen schließlich das Potenzial der bedingten Berechnung, indem wir eine mehr als 1000-fache Steigerung der Modellkapazität erreichen, wobei nur geringe Verluste in der rechnerischen Effizienz auf modernen GPU-Clustern eingehen. Wir führen eine dünnbesetzte Gating-Schicht für Mischmodelle von Experten (Sparsely-Gated Mixture-of-Experts layer, MoE) ein, die bis zu Tausenden von Feed-Forward-Unternetzen umfasst. Ein lernfähiges Gating-Netz bestimmt eine dünnbesetzte Kombination dieser Experten für jedes Beispiel. Wir wenden das MoE auf die Aufgaben des Sprachmodellierens und maschinellen Übersetzens an, wo die Modellkapazität entscheidend ist, um die riesigen Mengen an Wissen in den Trainingskorpora aufzunehmen. Wir präsentieren Modellarchitekturen, in denen eine MoE-Schicht mit bis zu 137 Milliarden Parametern konvolutionell zwischen gestapelten LSTM-Schichten angewendet wird. Bei großen Benchmarks für Sprachmodellierung und maschinelle Übersetzung erzielen diese Modelle signifikant bessere Ergebnisse als der aktuelle Stand der Technik und zwar zu einem geringeren Rechenaufwand.