vor 2 Monaten

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Zusammenfassung

Verstärkendes Lernen ist zu einem Paradigma für die Nachtraining großer Sprachmodelle geworden und hat deren Schlussfolgerungsfähigkeiten erheblich verbessert. Solche Ansätze berechnen für jedes Beispiel einen Vorteilswert, der eine bessere oder schlechtere Leistung im Vergleich zu den Erwartungen widerspiegelt, wodurch sowohl positive als auch negative Signale für das Training generiert werden. Die ungezielte Vermischung dieser beiden Signale in bestehenden Methoden, insbesondere bereits in frühen Phasen, kann jedoch zu mehrdeutiger Anleitung und begrenzten Verbesserungen führen. Um dieses Problem anzugehen, schlagen wir CAPO (Curriculum Advantage Policy Optimization) vor – einen adaptiven Curriculum-Mechanismus, der auf Vorteilssignalen basiert. Der vorgeschlagene Mechanismus nutzt positive Vorteilssamples, um eine robuste Grundlage durch Nachahmungslernen aufzubauen, und führt anschließend negative Signale ein, um diskriminative Fähigkeiten zu fördern, wodurch die Generalisierbarkeit in komplexen Szenarien verbessert wird. Unabhängig von verschiedenen Optimierungsverfahren wie GRPO, PPO, RLOO und Reinforce++ erreicht unsere Methode konsistent stabile und signifikante Verbesserungen bei mathematischen Schlussfolgerungsaufgaben und verallgemeinert sich zudem effektiv auf multimodale Graphical User Interface (GUI)-Schlussfolgerungsszenarien, wodurch sie sich als vielseitig und robustes Optimierungsframework etabliert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Von Nachahmung zur Unterscheidung: Ein allgemeinerer Curriculum-Vorteilsmechanismus zur Verbesserung von Cross-Domain-Reasoning-Aufgaben

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Von Nachahmung zur Unterscheidung: Ein allgemeinerer Curriculum-Vorteilsmechanismus zur Verbesserung von Cross-Domain-Reasoning-Aufgaben

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Von Nachahmung zur Unterscheidung: Ein allgemeinerer Curriculum-Vorteilsmechanismus zur Verbesserung von Cross-Domain-Reasoning-Aufgaben

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi