Équipe Apple et HKUST Développe DiffuCoder : Premier Modèle Linguistique Diffusion avec Solution RL Native
Une équipe conjointe de l'Université de Hong Kong et d'Apple a développé une nouvelle approche de modèle linguistique appelée DiffuCoder. Ce modèle utilise la méthode de diffusion par unité sémantique et de génération textuelle linéaire de gauche à droite pour traiter les tâches de génération de code. Cette approche introduit également la première solution de renforcement d'apprentissage native à la diffusion, offrant ainsi une perspective innovante dans l'élaboration de code. La technique de génération de texte utilisée par DiffuCoder est basée sur une série d'étapes de masquage et de remplissage. Elle commence avec une séquence entièrement masquée, puis évalue successivement chaque position tout en progressant du début à la fin, jusqu'à ce que tous les unités sémantiques soient remplacées par des mots réels. Cette méthode de diffusion séquentielle et parallèle permet d'avoir une meilleure compréhension du contexte et des relations interdépendantes entre les unités sémantiques, ce qui est essentiel pour la génération de code. Pour améliorer la qualité du texte généré par les modèles de diffusion, l'équipe a introduit une métrique appelée "autoregressive-native" (AR-ness). Cette métrique examine deux aspects : la continuité locale (la tendance du modèle à générer des unités sémantiques adjacentes dans le même sens) et l'ordre global (la tendance du modèle à compléter la séquence linéairement de gauche à droite). Ces critères aident à analyser la structure de génération de code et montrent que, malgré son caractère séquentiel, le modèle de diffusion n'est pas entièrement aléatoire. Il conserve une certaine dépendance ordonnée, notamment en prédisant plus précisément la position des unités sémantiques à droite des unités générées précédemment. Les chercheurs ont également découvert que la température d'échantillonnage joue un rôle crucial dans la façon dont le modèle génère du code. Dans les modèles autorégressifs traditionnels, augmenter la température sert principalement à diversifier les choix de mots. Cependant, dans les modèles de diffusion, les modifications de la température ont un impact significatif sur les décisions de génération. En augmentant cette température, le modèle devient plus flexible et moins strict dans sa génération de séquences, tout en préservant leur ordre général. Cette flexibilité favorise une diversification accrue des outputs, ce qui améliore significativement la formation ultérieure et l'efficacité de l'apprentissage par renforcement. En résumé, l'introduction de DiffuCoder et de sa méthode de génération de code par diffusion offre une nouvelle avenue pour traiter des tâches complexes en programmation, où la structure et les dépendances du code sont essentielles. Les résultats montrent que cette approche peut surpasser les modèles autorégressifs traditionnels en termes de flexibilité et de capacité à générer des code de haute qualité tout en adaptant sa stratégie de génération en fonction des caractéristiques spécifiques de chaque tâche. Cette avancée ouvre la voie à des applications potentielles dans divers domaines de l'informatique et du développement logiciel.