HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachmodell-Vortrainierung mit sparsen latenten Typen

Liliang Ren Zixuan Zhang Han Wang Clare R. Voss Chengxiang Zhai Heng Ji

Zusammenfassung

Moderne große vortrainierte Sprachmodelle (PLMs) haben auf einer Vielzahl von Downstream-Aufgaben erhebliche Erfolge erzielt. Allerdings konzentrieren sich die meisten Vortrainingsziele von Sprachmodellen ausschließlich auf die Rekonstruktion von Text, ohne danach zu streben, latente, interpretierbare Darstellungen von Sätzen zu erlernen. In diesem Artikel schlagen wir ein neues Vortrainingsziel vor – Sparse Latent Typing –, das es dem Modell ermöglicht, eine tiefere Verständnis von Sätzen zu entwickeln, indem es seltene, satzbezogene Schlüsselwörter mit vielfältigen latenten Typen sparsam extrahiert. Experimentelle Ergebnisse zeigen, dass unser Modell in einer selbstüberwachten Weise in der Lage ist, interpretierbare latente Typkategorien zu lernen, ohne externe Wissensquellen zu nutzen. Darüber hinaus verbessert das Sprachmodell, das mit diesem Ziel vortrainiert wurde, Aufgaben der Informationsextraktion in sowohl überwachten als auch Few-Shot-Szenarien signifikant. Unser Quellcode ist öffentlich verfügbar unter: https://github.com/renll/SparseLT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp