vor 3 Monaten

Zusammenfassung

Der Begriff „Ende-zu-Ende“ für große Sprachmodelle (LLMs) ist irreführend. In der Praxis beruhen sie auf einem nicht differenzierbaren Dekodierungsprozess, der eine aufwändige, manuelle Feinabstimmung von Hyperparametern wie Temperatur und top-p erfordert. In dieser Arbeit stellen wir AutoDeco vor, eine neuartige Architektur, die eine echte „Ende-zu-Ende“-Generierung ermöglicht, indem das Modell seine eigene Dekodierstrategie lernt. Wir erweitern den herkömmlichen Transformer um leichte Kopfmodule, die in jedem Schritt neben den Logits für das nächste Token dynamisch kontextspezifische Werte für Temperatur und top-p vorhersagen. Dieser Ansatz transformiert die Dekodierung in einen parametrischen, tokenbasierten Prozess, wodurch das Modell seine Stichprobenstrategie innerhalb einer einzigen Vorwärtsdurchlauf selbstregulieren kann. Durch umfangreiche Experimente an acht Benchmarks zeigen wir, dass AutoDeco nicht nur signifikant bessere Ergebnisse als herkömmliche Dekodierstrategien erzielt, sondern auch eine Leistung erreicht, die einer von „Hacking des Testsets“ abgeleiteten, optimierten Baseline (Oracle-tuned) nahekommt – einer praktischen Obergrenze für jede statische Methode. Entscheidend ist, dass wir eine emergente Fähigkeit zur anweisungsbasierten Steuerung der Dekodierung entdecken: Das Modell lernt, natürlichsprachliche Befehle (z. B. „generiere mit geringer Zufälligkeit“) zu interpretieren und seine vorhergesagten Werte für Temperatur und top-p auf tokenbasiertem Niveau anzupassen. Damit eröffnet sich ein neues Paradigma für steuerbare und interaktive Dekodierung großer Sprachmodelle.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Natürliche Sprachverarbeitung

Aufgabe

Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Natürliche Sprachverarbeitung

Aufgabe

Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters