HyperAIHyperAI

Command Palette

Search for a command to run...

Neuausrichtung Der Dekodierungszeit

Date

vor einem Jahr

Decoding-Time Realignment (DeRa) ist eine Methode zum Anpassen des Grads der Modellausrichtung, wenn ein Sprachmodell eine Antwort generiert. Es wurde 2024 von Forschern der Universität Basel in der Schweiz, Universitäten in Großbritannien und Frankreich sowie Google DeepMind und Google Research vorgeschlagen.Neuausrichtung von Sprachmodellen während der Dekodierung" wurde von ICML-2024 angenommen und als Spotlight-Präsentation ausgewählt (was nur 3,5% der gesamten Einreichungen ausmacht).

Die Kernidee dieser Technologie besteht darin, die Ausrichtung des Modells während des Dekodierungsprozesses dynamisch anzupassen, ohne das Modell neu zu trainieren, wodurch Rechenressourcen gespart und die Forschungseffizienz verbessert werden. Insbesondere ist die Methode zur Neuausrichtung der Dekodierungszeit (DeRa) in der Lage, das Gleichgewicht zwischen Belohnung und Regularisierung bei der Generierung von Antworten anzupassen. Es erreicht die Kontrolle über den Grad der Modellausrichtung, indem es das Modell mit überwachter Feinabstimmung (SFT) und das ausgerichtete Modell auf der ursprünglichen Ausgabe (Logits) interpoliert, um unterschiedliche Regularisierungsstärken anzunähern. Diese Methode ist einfach und flexibel und kann die Ausrichtungsstärke an unterschiedliche Anforderungen anpassen, während gleichzeitig der Rechenaufwand für das wiederholte Trainieren des Modells vermieden wird.

Darüber hinaus hat diese Technologie in zahlreichen Experimenten gute Ergebnisse gezeigt. Beispielsweise zeigen Experimente mit dem Zephyr-7b-Modell, wie DeRa die Ausrichtung des Sprachmodells während der Decodierung anpasst, und Experimente zur Generationslänge und zu Zusammenfassungsaufgaben bestätigen die Ähnlichkeit von DeRa mit dem neu trainierten Modell und sein Potenzial zur Reduzierung von Halluzinationen.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neuausrichtung Der Dekodierungszeit | Wiki | HyperAI