Matrixinformationstheorie für selbstüberwachtes Lernen

Das Maximum-Entropy-Encoding-Framework bietet einen einheitlichen Blickwinkel auf zahlreiche nicht-kontrastive Lernmethoden wie SimSiam, Barlow Twins und MEC. Inspiriert durch dieses Framework stellen wir Matrix-SSL vor, einen neuartigen Ansatz, der die Matrix-Informationstheorie nutzt, um die Maximum-Entropy-Encoding-Verlustfunktion als Matrix-Gleichverteilungsverlust zu interpretieren. Darüber hinaus verbessert Matrix-SSL das Maximum-Entropy-Encoding-Verfahren durch die nahtlose Integration eines Matrix-Ausrichtungsverlusts, der direkt die Kovarianzmatrizen in verschiedenen Verzweigungen ausrichtet. Experimentelle Ergebnisse zeigen, dass Matrix-SSL state-of-the-art Methoden sowohl auf dem ImageNet-Datensatz im linearen Evaluierungssetting als auch auf MS-COCO für Transfer-Learning-Aufgaben übertrifft. Insbesondere bei Transfer-Learning-Aufgaben auf MS-COCO erreicht unsere Methode, mit nur 400 Trainingsepochen gegenüber den 800 Epochen der vorherigen SOTA-Methoden wie MoCo v2 und BYOL, eine Verbesserung von bis zu 3,3 %. Zudem untersuchen wir die Einbindung von Repräsentationslernverfahren in den Bereich der Sprachmodellierung, indem wir ein 7B-Modell mit Matrix-Kreuzentropieverlust fine-tunen und dabei eine Verbesserung von 3,1 % gegenüber dem Standard-Kreuzentropieverlust auf dem GSM8K-Datensatz erzielen. Der Quellcode ist unter https://github.com/yifanzhang-pro/Matrix-SSL verfügbar.