HyperAIHyperAI

Command Palette

Search for a command to run...

Die Gewinner Der NeurIPS 2025 Best Paper Awards Wurden Bekanntgegeben! Ein Gemeinsames Forschungsprojekt Von Qwens Team, Der Tsinghua-Universität, Der Stanford-Universität Und Anderen Wurde ausgewählt.

Featured Image

Der NeurIPS 2025 Best Paper Award und der Runner-up Paper Award wurden an 7 bahnbrechende Arbeiten verliehen, darunter 4 Best Papers (eine davon aus dem Bereich Datensätze und Benchmarks) und 3 Runner-up Papers.

Diese sieben Artikel beleuchten die neuesten Fortschritte in der Diffusionsmodelltheorie, im selbstüberwachten Reinforcement Learning, in Aufmerksamkeitsmechanismen in großen Sprachmodellen, in den Denkfähigkeiten von Sprachmodellen, in der Online-Lerntheorie, in neuronalen Skalierungsgesetzen und in Benchmarking-Methoden für die Diversität von Sprachmodellen.

Die 4 besten Arbeiten

1. Künstliche Intelligenz im Crowdsourcing: Die offene Homogenität von Sprachmodellen (und ihre Erweiterungen)

Titel: Künstliches Kollektivbewusstsein: Die offene Homogenität von Sprachmodellen (und darüber hinaus)

* Forschungsteam:Universität von Washington, Carnegie Mellon Universität, Allen Institut für Künstliche Intelligenz, Lila Sciences, Stanford Universität

* Zusammenfassung:Große Sprachmodelle haben oft Schwierigkeiten, vielfältige, menschenähnliche kreative Inhalte zu generieren. Dies weckt Bedenken hinsichtlich einer langfristigen Homogenisierung des menschlichen Denkens durch wiederholte Konfrontation mit ähnlichen Ergebnissen. Aktuelle skalierbare Methoden zur Bewertung der Diversität von Sprachmodellausgaben sind jedoch weiterhin begrenzt, insbesondere außerhalb eng umrissener Aufgaben wie der Generierung von Zufallszahlen oder Namen oder jenseits wiederholter Stichproben eines einzelnen Modells.

Um diesem Mangel zu begegnen, stellen wir Infinity-Chat vor, einen umfangreichen Datensatz mit 26.000 vielfältigen, realen, offenen Nutzeranfragen, die mehrere plausible Antworten anstelle einer einzigen „richtigen Antwort“ ermöglichen. Wir präsentieren außerdem erstmals ein umfassendes Klassifizierungssystem zur Beschreibung aller offenen Anfragen, die einem Sprachmodell gestellt werden. Dieses System umfasst sechs Hauptkategorien (z. B. kreative Inhaltsgenerierung, Brainstorming und Ideenfindung), die jeweils in 17 Unterkategorien unterteilt sind.

Wir führten eine groß angelegte Studie zum Musterkollaps in Sprachmodellen (LMs) mithilfe der Infinity-Chat-Plattform durch und deckten dabei einen signifikanten Effekt künstlicher Schwarmintelligenz bei der Generierung offener Sprachmodelle auf. Dieser Effekt manifestiert sich in: (1) Wiederholbarkeit innerhalb eines Modells, d. h. einzelne Modelle generieren konsistent ähnliche Antworten; und (2) Homogenität zwischen Modellen, d. h. verschiedene Modelle erzeugen auffallend ähnliche Ausgaben. Die Infinity-Chat-Plattform umfasst zudem 31.250 menschliche Annotationen, die absolute Bewertungen und paarweise Präferenzen abdecken, wobei jedes Beispiel 25 unabhängige menschliche Annotationen enthält. Dies ermöglichte es uns, kollektive und individuelle menschliche Präferenzen für offene Anfragen zu untersuchen. Unsere Ergebnisse zeigen, dass moderne Sprachmodelle, Belohnungsmodelle und Sprachmodell-Evaluatoren trotz ihrer insgesamt hohen Qualität nur eine geringe Übereinstimmung mit menschlichen Bewertungen bei der Modellgenerierung aufwiesen, die personalisierte Präferenzen verschiedener Annotatoren hervorrief. Insgesamt bietet INFINITY-CHAT die erste groß angelegte Ressource zur systematischen Untersuchung offener Anfragen an Sprachmodelle in der realen Welt und liefert wichtige Erkenntnisse, die zukünftige Forschung leiten und die langfristigen KI-Sicherheitsrisiken, die von der KI-Herdenmentalität ausgehen, mindern sollen.

* Link zum Artikel:https://go.hyper.ai/DZga5

2. Anwendung von Gated-Attention-Mechanismen in groß angelegten Sprachmodellen: Nichtlinearität, Sparsität und unbeaufsichtigte Konvergenz

Titel: Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsity und Attention-Sink-Free

* Forschungsteam:Alibaba Qwen-Team, Universität Edinburgh, Stanford University, Massachusetts Institute of Technology, Tsinghua-Universität

* Zusammenfassung:Gating-Mechanismen finden breite Anwendung, von frühen Modellen wie LSTM und Highway Networks bis hin zu neueren Zustandsraummodellen, linearen Aufmerksamkeitsmechanismen und Softmax-Aufmerksamkeitsmechanismen. Die spezifische Wirkung von Gating-Mechanismen wird in der bestehenden Literatur jedoch selten untersucht. Diese Arbeit analysiert systematisch Varianten von Softmax-Aufmerksamkeitsmechanismen mit Gating-Optimierung anhand umfassender Experimente. Konkret vergleichen wir 30 Varianten, darunter 15 Milliarden Hybrid-Expert-Modelle (MoE) und 1,7 Milliarden Dense-Modelle, die alle mit einem Datensatz von 3,5 Billionen Token trainiert wurden. Unser wichtigstes Ergebnis ist, dass eine einfache Verbesserung – die Anwendung eines kopfspezifischen Sigmoid-Gatings nach Scaled Dot Product Attention (SDPA) – die Modellleistung konsistent steigern kann. Darüber hinaus erhöht diese Verbesserung die Trainingsstabilität, die Toleranz des Modells gegenüber verschiedenen Lernraten und die Skalierbarkeit. Durch den Vergleich verschiedener Gating-Positionen und Rechenvarianten führen wir diese Effektivität auf zwei Schlüsselfaktoren zurück: (1) die Einführung von Nichtlinearität in die Low-Rank-Abbildung des Softmax-Aufmerksamkeitsmechanismus und (2) die Anwendung abfragerelevanter Sparse-Gating-Scores zur Modulation des SDPA-Outputs. Insbesondere stellen wir fest, dass dieser Sparse-Gating-Mechanismus großflächige Aktivierungen und Aufmerksamkeitsfallen reduziert und die Extrapolationsleistung über lange Kontexte verbessert. Wir veröffentlichen außerdem den zugehörigen Code und das Modell, um zukünftige Forschung zu erleichtern. Darüber hinaus wurde das effizienteste SDPA-Output-Gating auf das Qwen3-Next-Modell angewendet.

* Papieradresse:https://go.hyper.ai/iBANK

* GitHub-Adresse:https://github.com/qiuzh20/gated_attention

3. Anwendung mehrschichtiger Netzwerke im selbstüberwachten Reinforcement Learning: Tiefe Expansion kann neuen Zielen die Fähigkeit verleihen, sie zu erreichen.

1000-Schichten-Netzwerke für selbstüberwachtes RL: Skalierung der Tiefe kann neue Zielerreichungsfähigkeiten ermöglichen

* Forschungsteam:Princeton University, Technische Universität Warschau

* Zusammenfassung:Während selbstüberwachtes Lernen bahnbrechende Fortschritte in der großflächigen Anwendung von Sprach- und Bildverarbeitung erzielt hat, sind vergleichbare Fortschritte im Bereich des Reinforcement Learning (RL) selten. Diese Arbeit untersucht Bausteine für selbstüberwachtes Reinforcement Learning, die die Skalierbarkeit signifikant verbessern, wobei die Netzwerktiefe ein Schlüsselfaktor ist. Die meisten aktuellen Arbeiten zum Reinforcement Learning basieren auf flachen Architekturen (ca. 2–5 Schichten), wir zeigen jedoch, dass eine Erhöhung der Tiefe auf 1024 Schichten die Leistung deutlich steigert. Unsere Experimente werden in einer unüberwachten Zielkonditionierungsumgebung ohne Demonstrationen oder Belohnungen durchgeführt. Der Agent muss daher selbstständig erkunden und lernen, wie er die Wahrscheinlichkeit des Erreichens des Ziels maximiert. Evaluierungen anhand simulierter Bewegungs- und Manipulationsaufgaben zeigen, dass unsere Methode die Leistung vergleichbarer selbstüberwachter Reinforcement-Learning-Algorithmen um den Faktor 10 verbessert und andere Baseline-Methoden mit Zielkonditionierung übertrifft. Die Erhöhung der Modelltiefe verbessert nicht nur die Erfolgsquote, sondern verändert auch das erlernte Verhalten grundlegend.

* Papieradresse:https://go.hyper.ai/HR0Hx

4. Warum Diffusionsmodelle nicht auf Auswendiglernen angewiesen sind: Die Rolle der impliziten dynamischen Regularisierung beim Training.

Warum Diffusionsmodelle nicht auswendig lernen: Die Rolle der impliziten dynamischen Regularisierung beim Training

* Forschungsteam:Universität Paris Sciences et Lafayette (Université PSL) und Universität Bocconi

* Verbreitung der Zusammenfassung:Das Modell hat in verschiedenen generativen Aufgaben beachtliche Erfolge erzielt. Eine zentrale Herausforderung besteht darin, die Mechanismen zu verstehen, die das Auswendiglernen der Trainingsdaten verhindern und Generalisierung ermöglichen. Diese Studie untersucht die Rolle der Trainingsdynamik beim Übergang von Generalisierung zu Auswendiglernen. Durch umfangreiche Experimente und theoretische Analysen identifizieren wir zwei unterschiedliche Zeitskalen: eine frühe Phase, in der das Modell beginnt, qualitativ hochwertige Beispiele zu generieren, und eine spätere Phase, in der Auswendiglernen auftritt. Ein zentrales Ergebnis ist, dass die frühe Phase linear mit der Größe des Trainingsdatensatzes wächst, während die spätere Phase konstant bleibt. Dies bildet ein asymptotisches Zeitfenster für das Training, in dem das Modell effektiv generalisiert, aber starkes Auswendiglernen auftritt, wenn das Training in die späteren Phasen fortgesetzt wird. Überanpassung verschwindet erst bei unendlicher Trainingszeit, wenn diese Zeitskala einen modellspezifischen Schwellenwert überschreitet. Diese Ergebnisse enthüllen einen impliziten dynamischen Regularisierungsmechanismus in der Trainingsdynamik, der Auswendiglernen selbst unter stark überparametrisierten Bedingungen verhindert. Unsere Schlussfolgerungen werden durch numerische Experimente an realen und synthetischen Datensätzen unter Verwendung der Standard-U-Net-Architektur bestätigt und durch theoretische Analysen handhabbarer stochastischer Merkmalsmodelle in hochdimensionalen Grenzfällen unterstützt.

* Papieradresse:https://go.hyper.ai/UloDv

Zweiter

1. Kann Reinforcement Learning Logiklernmodelle tatsächlich dazu anregen, ihre Denkfähigkeiten über das Basismodell hinaus zu verbessern?

Titel: Fördert Reinforcement Learning tatsächlich die Denkfähigkeit in LLMs über das Basismodell hinaus?

* Team:Tsinghua University LeapLab Laboratory, Shanghai Jiao Tong University

* Zusammenfassung:In den letzten Jahren hat Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) signifikante Fortschritte bei der Verbesserung der Argumentationsleistung großer Sprachmodelle (LLMs) erzielt, insbesondere bei mathematischen und Programmieraufgaben. Es wird allgemein angenommen, dass RLVR, ähnlich wie traditionelles Reinforcement Learning Agenten beim Erkunden und Erlernen neuer Strategien unterstützt, LLMs in die Lage versetzt, sich kontinuierlich zu verbessern und dadurch neue Argumentationsfähigkeiten zu erwerben, die die der zugrundeliegenden Modelle übertreffen. Diese Studie untersucht systematisch die Grenzen der Argumentationsfähigkeit von RLVR-trainierten LLMs über verschiedene Modellfamilien, Reinforcement-Learning-Algorithmen und Benchmarks für mathematisches, programmiertechnisches und visuelles Denken hinweg und bietet eine detaillierte Analyse des aktuellen Stands von RLVR.

Wir verwenden die pass@k-Metrik für große k-Werte als Bewertungskriterium. Unsere Forschung zeigt, dass RLVR zwar die Sampling-Effizienz für korrekte Pfade verbessert, die aktuellen Trainingsmethoden jedoch überraschenderweise keine grundlegend neuen Inferenzmuster generieren. Wir beobachten, dass RLVR-trainierte Modelle ihre Basismodelle bei kleineren Werten (z. B. k = 1) zwar übertreffen, das Basismodell aber bei größeren Werten einen höheren pass@k-Wert aufweist. Darüber hinaus stellen wir fest, dass die Inferenzfähigkeit von LLMs mit fortschreitendem RLVR-Training typischerweise abnimmt. Weitere Abdeckungs- und Perplexitätsanalysen deuten darauf hin, dass die von den RLVR-Modellen generierten Inferenzpfade bereits in der Sampling-Verteilung des Basismodells enthalten sind. Dies legt nahe, dass ihre Inferenzfähigkeit vom Basismodell abgeleitet und durch dieses begrenzt ist. Aus dieser Perspektive betrachtet, wobei das Basismodell als Obergrenze dient, zeigt unsere quantitative Analyse, dass die Leistung der sechs gängigen RLVR-Algorithmen ähnlich ist und weit davon entfernt ist, das Potenzial des Basismodells optimal auszuschöpfen.

Im Gegensatz dazu zeigt sich, dass Destillation neue Denkmuster aus dem Lehrermodell ableiten und dessen Denkvermögen deutlich erweitern kann. Zusammenfassend belegen unsere Ergebnisse, dass die aktuellen RLVR-Methoden das Potenzial des Reinforcement Learnings zur Entwicklung neuartiger Denkfähigkeiten in LLMs noch nicht voll ausschöpfen. Dies unterstreicht die Notwendigkeit, Reinforcement-Learning-Paradigmen wie kontinuierliche Erweiterung und mehrstufige Agent-Umgebungs-Interaktionen zu verbessern, um dieses Potenzial zu erschließen.

* Papieradresse:https://go.hyper.ai/fwkSX

2. Optimale Fehlerbegrenzung für Direct-Push-Online-Lernen

Titel: Optimale Fehlergrenzen für transduktives Online-Lernen

* Team:Kent State University, Purdue University, Google Research, MIT

Zusammenfassung:Wir gehen einer 30 Jahre alten offenen Frage nach der Rolle ungelabelter Daten beim Online-Lernen nach. Dazu quantifizieren wir präzise die Diskrepanz zwischen transduktivem und herkömmlichem Online-Lernen. Wir zeigen, dass für jede Littlestone-Konzeptklasse der Dimension n die transduktive Fehlerschranke mindestens n beträgt. Dies stellt eine exponentielle Verbesserung gegenüber den bisherigen unteren Schranken n<sub>1</sub>, n<sub>2</sub> und n<sub>3</sub> dar, die von Ben-David, Kushilevitz und Mansour (1995, 1997) bzw. Hanneke, Moran und Shafer (2023) angegeben wurden. Wir zeigen außerdem, dass unsere Schranke optimal ist: Für jedes n existiert eine Littlestone-Konzeptklasse der Dimension n mit einer transduktiven Fehlerschranke von n<sub>1</sub>. Unsere obere Schranke verbessert auch die bisher beste bekannte obere Schranke von Ben-David et al. (1997). Diese Ergebnisse belegen eine quadratische Diskrepanz zwischen transduktivem und herkömmlichem Online-Lernen und unterstreichen die Vorteile des frühen Zugriffs auf Sequenzen unbeschrifteter Instanzen. Dies steht im deutlichen Gegensatz zum PAC-Setting, wo transduktives und herkömmliches Lernen eine ähnliche Stichprobenkomplexität aufweisen.

* Papieradresse:https://go.hyper.ai/00rHz

3. Die Superpositionsstruktur verleiht neuronalen Netzen eine robuste Skalierbarkeit.

Titel: Superposition führt zu robuster neuronaler Skalierung

Team:Massachusetts Institute of Technology

Zusammenfassung:Der Erfolg großer Sprachmodelle (LLMs) beruht heute auf der Beobachtung, dass größere Modelle bessere Ergebnisse liefern. Der Ursprung dieses neuronalen Skalierungsgesetzes, bei dem der Verlust mit der Modellgröße potenzgesetzlich abnimmt, ist jedoch weiterhin unklar. Wir vermuten, dass Repräsentationsstapelung (d. h. die Anzahl der von einem LLM repräsentierten Merkmale übersteigt seine Dimensionalität) ein Schlüsselfaktor für den Verlust sein und zur neuronalen Skalierung führen könnte. Anhand eines einfachen Modells der anthropischen Sprache untersuchen wir systematisch, wie der Verlust mit der Modellgröße skaliert, indem wir den Grad der Stapelung mittels Gewichtungsabfall steuern. Bei schwacher Stapelung folgt der Verlust nur dann einem Potenzgesetz, wenn die Häufigkeit der Datenmerkmale einer Potenzgesetzverteilung folgt. Im Fall starker Stapelung ist der Verlust hingegen typischerweise über eine breite Häufigkeitsverteilung umgekehrt proportional zur Modelldimensionalität, bedingt durch die geometrische Überlappung der Repräsentationsvektoren. Wir zeigen, dass Open-Source-LLMs, die unter starker Stapelung arbeiten, eine inverse Beziehung zwischen Verlust und Modelldimensionalität aufweisen und dass das Skalierungsgesetz von Chinchilla damit übereinstimmt. Unsere Ergebnisse legen nahe, dass die Repräsentationsstapelung ein zentraler Treiber der neuronalen Skalierung ist und liefern Erkenntnisse zu Fragen wie: Wann kann die neuronale Skalierung verbessert werden und wann scheitert sie?

* Papieradresse:https://go.hyper.ai/AyLWt

Wenn Sie mehr über hochaktuelle KI-Veröffentlichungen erfahren möchten,
Willkommen bei:https://hyper.ai/papers