MV-MR: Mehrere Ansichten und mehrere Repräsentationen für selbstüberwachtes Lernen und Wissensdistillierung

Wir präsentieren eine neue Methode des selbstüberwachten Lernens und der Wissensdistillierung, die auf Multi-Views und Multi-Representations (MV-MR) basiert. Das MV-MR zielt darauf ab, die Abhängigkeit zwischen lernbaren Einbettungen aus erweiterten und nicht erweiterten Ansichten zu maximieren, gleichzeitig mit der Maximierung der Abhängigkeit zwischen lernbaren Einbettungen aus erweiterter Ansicht und mehreren nicht lernbaren Repräsentationen aus nicht erweiterter Ansicht. Wir zeigen, dass die vorgeschlagene Methode für effizientes selbstüberwachtes Klassifizieren und modellagnostische Wissensdistillierung verwendet werden kann. Im Gegensatz zu anderen selbstüberwachten Techniken verwendet unser Ansatz weder kontrastives Lernen noch Clustering oder Stop Gradients. MV-MR ist ein generisches Framework, das es ermöglicht, Einschränkungen auf die lernbaren Einbettungen durch den Einsatz von Bildmulti-Repräsentationen als Regularisierer zu integrieren. In diesem Zusammenhang wird Wissensdistillierung als ein besonderer Fall einer solchen Regularisierung betrachtet. MV-MR liefert den Stand der Technik in Bezug auf die Leistung auf den Datensätzen STL10 und ImageNet-1K unter den nicht-kontrastiven und clustergfreien Methoden. Wir zeigen, dass ein ResNet50-Modell mit geringerer Komplexität, das mithilfe der vorgeschlagenen Wissensdistillierung basierend auf dem CLIP ViT-Modell vortrainiert wurde, den Stand der Technik bei der linearen Auswertung von STL10 erreicht. Der Code ist unter folgender URL verfügbar: https://github.com/vkinakh/mv-mr