Physik-Modell erklärt Merkmalslernen in KI-Netzen
Tiefen neuronale Netze (DNNs) lernen durch die schrittweise Transformation von Eingabedaten in abstrakte Merkmale, wobei jede Schicht die Informationen vereinfacht und strukturiert. Forscher der Universität Basel und der Universität für Wissenschaft und Technologie in China haben nun eine neue physikalisch-geometrische Theorie entwickelt, die das Merkmalslernen in DNNs mithilfe eines Feder-Block-Modells erklärt. Inspiriert von der „Gesetzmäßigkeit der Datentrennung“ – der Beobachtung, dass jede Schicht einer gut trainierten Netzwerkarchitektur die Trennbarkeit zwischen Klassen (z. B. Katzen vs. Hunde) um einen konstanten Betrag verbessert – suchten sie nach einem physikalischen Analogon. Sie fanden es in mechanischen Systemen wie Feder-Block-Ketten, die in der Geophysik zur Modellierung von Erdbeben und Materialverformung verwendet werden. In diesem Modell entspricht die Verlängerung einer Feder der Merkmalsvereinfachung in einer Netzschicht, während Reibung zwischen den Blöcken der Nichtlinearität im Netzwerk entspricht. Rauschen im Training oder Schwingungen im Feder-Block-System simulieren Störungen, die die Trennung der Daten gleichmäßiger verteilen – ein Effekt, der mit „akustischer Schmierung“ oder stick-slip-Phänomenen vergleichbar ist. Die Forscher zeigten, dass die Kurven der Datentrennung in DNNs durch dieses Modell präzise beschrieben werden können und deren Form Hinweise auf die Generalisierungsfähigkeit des Netzwerks liefert. Die Theorie ermöglicht es, die Interaktion von Faktoren wie Tiefe, Nichtlinearität, Lernrate und Rauschen in einem konsistenten Rahmen zu verstehen – im Gegensatz zu bisherigen Ansätzen, die einzelne Aspekte isoliert betrachten. Ein besonderer Vorteil liegt in der intuitiven Zugänglichkeit: Statt mit Milliarden Parameter zu arbeiten, nutzen die Forscher ein System mit nur wenigen Parametern, um tiefgreifende Aussagen über DNNs zu treffen. In Zukunft könnte die Theorie helfen, Trainingsprozesse effizienter zu gestalten, etwa durch gezielte Anpassung von Rausch- und Nichtlinearitätsparametern, um Generalisierung zu fördern. Zudem wird ein diagnostisches Werkzeug entwickelt, das Überlastung oder Unternutzung von Schichten im Netzwerk aufdeckt – ähnlich wie Spannungsanalysen in der Bautechnik. Dies könnte überkritische Stellen im Modell identifizieren, die zu Überanpassung oder Redundanz führen. Die Forscher arbeiten bereits an einer ersten-prinzipiellen Begründung dieser Phänomene und streben an, die Theorie direkt in die Optimierung großer Sprachmodelle wie Transformers einzubinden. Die Arbeit wird von Experten als bahnbrechend gewürdigt: „Es ist selten, dass ein so komplexes System wie ein DNN durch ein einfaches physikalisches Modell so elegant beschrieben werden kann“, sagt ein unabhängiger Experte für maschinelles Lernen. Die Forschergruppe um Ivan Dokmanić ist international anerkannt für ihre interdisziplinären Ansätze, die Mathematik, Physik und Informatik verbinden. Ihre Arbeit könnte die Grundlage für eine neue Generation von Theorien im Deep Learning bilden, die nicht nur Erklärbarkeit, sondern auch praktische Verbesserung von KI-Systemen ermöglichen.