Qwen Technischer Bericht

Große Sprachmodelle (LLMs) haben das Feld der künstlichen Intelligenz revolutioniert und natürliche Sprachverarbeitungsaufgaben ermöglicht, die bisher ausschließlich menschlichen Fähigkeiten zugeschrieben wurden. In dieser Arbeit stellen wir Qwen vor, den ersten Teil unserer Serie großer Sprachmodelle. Qwen ist eine umfassende Serie von Sprachmodellen, die unterschiedliche Modelle mit variierenden Parameteranzahlen umfasst. Sie umfasst Qwen, die Basis-Prätrainierten Sprachmodelle, sowie Qwen-Chat, die durch menschliche Ausrichtungstechniken fine-tuneten Chat-Modelle. Die Basis-Sprachmodelle zeigen konsistent herausragende Leistung in einer Vielzahl von Downstream-Aufgaben, während die Chat-Modelle – insbesondere jene, die mit Reinforcement Learning aus menschlichem Feedback (RLHF) trainiert wurden – äußerst wettbewerbsfähig sind. Die Chat-Modelle verfügen über fortgeschrittene Fähigkeiten im Umgang mit Werkzeugen und Planung, die zur Entwicklung von Agentenanwendungen genutzt werden können, und zeigen beeindruckende Leistung, selbst wenn sie größeren Modellen bei komplexen Aufgaben wie der Nutzung eines Code-Interpreters gegenüberstehen. Darüber hinaus haben wir spezialisierte Programmiermodelle, Code-Qwen und Code-Qwen-Chat, sowie mathematikorientierte Modelle, Math-Qwen-Chat, entwickelt, die auf den Basis-Sprachmodellen aufbauen. Diese Modelle erreichen im Vergleich zu Open-Source-Modellen signifikant verbesserte Leistung und liegen lediglich leicht hinter proprietären Modellen zurück.