HyperAIHyperAI

Command Palette

Search for a command to run...

Matrixinformationstheorie für selbstüberwachtes Lernen

Yifan Zhang Zhiquan Tan Jingqin Yang Weiran Huang Yang Yuan

Zusammenfassung

Das Maximum-Entropy-Encoding-Framework bietet einen einheitlichen Blickwinkel auf zahlreiche nicht-kontrastive Lernmethoden wie SimSiam, Barlow Twins und MEC. Inspiriert durch dieses Framework stellen wir Matrix-SSL vor, einen neuartigen Ansatz, der die Matrix-Informationstheorie nutzt, um die Maximum-Entropy-Encoding-Verlustfunktion als Matrix-Gleichverteilungsverlust zu interpretieren. Darüber hinaus verbessert Matrix-SSL das Maximum-Entropy-Encoding-Verfahren durch die nahtlose Integration eines Matrix-Ausrichtungsverlusts, der direkt die Kovarianzmatrizen in verschiedenen Verzweigungen ausrichtet. Experimentelle Ergebnisse zeigen, dass Matrix-SSL state-of-the-art Methoden sowohl auf dem ImageNet-Datensatz im linearen Evaluierungssetting als auch auf MS-COCO für Transfer-Learning-Aufgaben übertrifft. Insbesondere bei Transfer-Learning-Aufgaben auf MS-COCO erreicht unsere Methode, mit nur 400 Trainingsepochen gegenüber den 800 Epochen der vorherigen SOTA-Methoden wie MoCo v2 und BYOL, eine Verbesserung von bis zu 3,3 %. Zudem untersuchen wir die Einbindung von Repräsentationslernverfahren in den Bereich der Sprachmodellierung, indem wir ein 7B-Modell mit Matrix-Kreuzentropieverlust fine-tunen und dabei eine Verbesserung von 3,1 % gegenüber dem Standard-Kreuzentropieverlust auf dem GSM8K-Datensatz erzielen. Der Quellcode ist unter https://github.com/yifanzhang-pro/Matrix-SSL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp