vor 12 Tagen

CodeT5+: Offene große Sprachmodelle für Code zur Codeverstehens- und Codegenerierung

Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi

Abstract

Große Sprachmodelle (LLMs), die auf umfangreichen Quellcode-Daten vortrainiert wurden, haben beachtliche Fortschritte in der Code-Intelligenz erzielt. Allerdings weisen bestehende Code-LLMs zwei Hauptbegrenzungen hinsichtlich Architektur und Vortrainingsaufgaben auf. Erstens verwenden sie oft eine spezifische Architektur (nur-Encoder oder nur-Decoder) oder setzen auf ein einheitliches Encoder-Decoder-Netzwerk für verschiedene Downstream-Aufgaben. Der erste Ansatz ist durch mangelnde Flexibilität in der Anwendung eingeschränkt, während beim zweiten Ansatz das Modell für alle Aufgaben als einheitliches System betrachtet wird, was zu suboptimalen Ergebnissen auf bestimmten Aufgaben führt. Zweitens setzen sie häufig auf eine begrenzte Menge an Vortrainingszielen, die für einige Downstream-Aufgaben möglicherweise nicht relevant sind und somit zu erheblichen Leistungseinbußen führen. Um diese Einschränkungen zu überwinden, schlagen wir „CodeT5+“ vor – eine Familie von Encoder-Decoder-LLMs für Code, bei der Komponentenmodule flexibel kombiniert werden können, um eine breite Palette von Downstream-Code-Aufgaben zu unterstützen. Diese Flexibilität wird durch unser vorgeschlagenes Mischungsmodell aus Vortrainingszielen ermöglicht, das die Diskrepanz zwischen Vortrainieren und Feintuning verringert. Diese Ziele umfassen Span-Denoising, kontrastives Lernen, Text-Code-Übereinstimmung sowie kausales LM-Vortrainieren, sowohl auf einmodalen als auch zweimodalen multilingualen Code-Korpora. Darüber hinaus schlagen wir vor, CodeT5+ mit frozen, kommerziell erhältlichen LLMs zu initialisieren, ohne von Grund auf neu trainieren zu müssen, um die Skalierung unserer Modelle effizient zu gestalten, und erforschen Instruction-Tuning, um die Anpassung an natürliche Sprachanweisungen zu verbessern. Wir evaluieren CodeT5+ umfassend auf über 20 Code-bezogenen Benchmarks unter verschiedenen Bedingungen, einschließlich Zero-Shot, Fine-Tuning und Instruction-Tuning. Wir beobachten state-of-the-art (SoTA)-Leistung auf verschiedenen Code-bezogenen Aufgaben wie Code-Generierung und -Vervollständigung, mathematisches Programmieren sowie Text-zu-Code-Abfrage. Insbesondere erreicht unsere instruction-tuned Variante CodeT5+ 16B neue SoTA-Ergebnisse im HumanEval-Code-Generierungstest gegenüber anderen offenen Code-LLMs.