HyperAI

Apple und die Universität von Hongkong präsentieren DiffuCoder: Ein 7-Milliarden-Parameter-Diffusionsmodell für die Codegenerierung Großskalige Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung revolutioniert und erstaunliche Ergebnisse in verschiedenen Aufgaben, von Dialogen bis zur Codegenerierung, erzielt. Maskierte Diffusionsmodelle sind als Alternative aufgetreten und wurden zu diffusionsbasierten LLMs wie LLaDA und Dream skaliert. Diese Modelle verfeinern die gesamte Sequenz iterativ und gleichzeitig, was eine globale Planung des Inhalts ermöglicht. Die diffusionsbasierte Ansatz ist besonders gut für die Codegenerierung geeignet, da das Schreiben von Code häufig nicht sequenziell und vielmehr iterativ erfolgt. Trotzdem ist bisher unklar, wie offene Diffusions-LLMs in der Codegenerierung abschneiden, da bisherige Post-Training-Anstrengungen nur geringe Verbesserungen gezeigt haben oder von semi-autoregressiven Decodierverfahren abhängen, die von der globalen Planungsstruktur der Diffusion abweichen. Die Evolution von Textdiffusionsmodellen und deren Einfluss auf die Code-Synthese Frühe Textdiffusionsmodelle umfassten maskierte Diffusionsmodelle, die inzwischen zu großskaligen Diffusions-LLMs wie DiffuLLaMA, LLaDA und Dream entwickelt wurden. Block-Diffusion vorschlägt einen hybriden Ansatz, bei dem Diffusion innerhalb jedes Blocks angewendet wird. Multimodale Modelle wie LaViDa, MMaDA und Dimple kombinieren Textdiffusionsmodelle mit Visuomodellen. Im Bereich der Codegenerierung war CodeFusion das erste Modell, das Diffusionsmodelle mit Codegenerierung verband, jedoch waren es nur kleine Modelle und einfache Aufgaben. Kürzlich veröffentlichte kommerzielle Diffusions-LLMs wie Mercury und Gemini zeigen vergleichbare Leistungen mit führenden autoregressiven Code-Modellen. Derzeitige Verstärkungslearning-Methoden (RL) für dLLMs, wie d1 und MMaDA unter Verwendung von GRPO, hängen von Block-Diffusions-Decodierung während der Rollout- und Evaluierungsphase ab. Apple und die Universität von Hongkong stellen DiffuCoder vor: Ein spezialisiertes Diffusionsmodell für Code Forscher von Apple und der Universität von Hongkong haben DiffuCoder entwickelt, ein 7-Milliarden-Parameter-maskiertes Diffusionsmodell, das speziell für die Codegenerierung ausgelegt ist und auf 130 Milliarden effektiven Tokens trainiert wurde. Dies macht es zu einem wertvollen Testfeld, um diffusionsbasiertes LLM-Verhalten zu erforschen und Post-Training-Methoden weiterzuentwickeln. Die Forscher führen lokale und globale Autoregressivitätsmetriken ein, um zu messen, wie eng die Generierung einem links-rechts-Muster folgt. Die Analyse zeigt, dass Diffusions-LLMs einen Entropiesink-Effekt aufweisen, der starke kausale Verzerrungen während der bedingten Generierung verursacht. DiffuCoder wird flexibler in der Token-Generierung, wenn die Sampling-Temperatur von 0.2 auf 1.2 erhöht wird, was es von strengen links-rechts-Beschränkungen befreit und eine höhere Pass@10-Genauigkeit ermöglicht. Ein vierstufiger Trainingspipeline mit RefineCode und Coupled-GRPO Das Modell wurde von Qwen-2.5-Coder abgeleitet und durch kontinuierliche Vortrainierung mit einem 400-Milliarden-Token-Code-Vortrainierungs-Korpus von RefineCode und Stackv2 angepasst. Die Trainingspipeline besteht aus vier Stufen: Anpassungsvortrainierung, mittlere Trainierung mit 16 Milliarden Tokens von annealing Code-Daten, Anweisungstuning mit 436.000 SFT-Proben und Post-Trainierung unter Verwendung von Coupled-GRPO mit 21.000 schwierigen Proben aus Acecoder-87K. In der ersten Phase wird nach der Verarbeitung von 65 Milliarden Tokens vorzeitig abgebrochen, während die zweite Phase für 4 Epochen trainiert wird, insgesamt ebenfalls 65 Milliarden Tokens. Die Evaluierungs-Umgebungen werden mit drei Code-Benchmarks—HumanEval, MBPP und EvalPlus—sowie BigCodeBench konstruiert. Sie umfassen sowohl vollständige als auch schwierige Teilmengen und Decken verschiedene Typen von Completion- und Anweisungsabfragen ab. Benchmark-Ergebnisse: DiffuCoders Leistung und Optimierungsinformationen DiffuCoder, das auf 130 Milliarden Code-Tokens trainiert wurde, erreicht Leistungen, die mit Qwen2.5-Coder und OpenCoder vergleichbar sind. Allerdings zeigen alle dLLMs nach Anweisungstuning nur geringfügige Verbesserungen im Vergleich zu Qwen2.5-Coder+SFT, das auf den gleichen Daten signifikante Verbesserungen durch Anweisungstuning erzielt. Coupled-GRPO-Training erweist sich als sehr effektiv, während Baseline-Varianten wie d1, Full-Mask-Completion und Decoupled-Sampling instabile Reward-Learning-Verhaltensweisen aufweisen. Das Verstärkungslearning feintuning erhöht die optimale Sampling-Temperatur während der Bewertung von 0.2 auf höhere Werte, was darauf hinweist, dass das Training die pro-Token-Verteilung schärft. Dies reduziert die Abhängigkeit des Modells von streng autoregressiver Decodierung und verbessert seine Fähigkeit, Tokens gleichzeitig zu generieren. Coupled-GRPO und die Zukunft diffusionsbasierter Code-Modelle In dieser Arbeit stellen die Forscher DiffuCoder vor, ein 7-Milliarden-Parameter-Open-Source-Diffusionsmodell für Code mit starken Leistungen, sowie dessen vollständige Trainingsrezeptur und detaillierte Analyse von dLLMs für die Codegenerierung. Sie führen Coupled-GRPO ein, einen RL-Algorithmus, der die nicht-autoregressive Natur von dLLMs durch ein gekoppeltes Sampling für eine genauere Likelihood-Schätzung respektiert. Coupled-GRPO verbessert die Leistung von DiffuCoder und zeigt die Effektivität von RL-Methoden, die den Prinzipien der Diffusion entsprechen. Diese Arbeit bietet der Community tiefere Einblicke in dLLMs und legt eine solide Grundlage für zukünftige Forschungen zu deren Anwendungen in komplexen Denkaufgaben und generativen Aufgaben. Industrie-Insider bewerten die Bedeutung von DiffuCoder und Coupled-GRPO positiv. Sie sehen darin ein bedeutendes Fortschritt in der Entwicklungslandschaft von Diffusions-LLMs, insbesondere für die Codegenerierung. Apple und die Universität von Hongkong haben sich dadurch als wichtige Akteure in der Forschung zu großen Sprachmodellen etabliert, die potenziell weitreichende Auswirkungen auf Softwareentwicklung und Automatisierung haben könnten.

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

Apple und HKU stellen DiffuCoder vor: 7B-Diffusionsmodell zur Codegenerierung

Verwandte Links

Command Palette

Apple und HKU stellen DiffuCoder vor: 7B-Diffusionsmodell zur Codegenerierung

Verwandte Links

Command Palette

Apple und HKU stellen DiffuCoder vor: 7B-Diffusionsmodell zur Codegenerierung

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf