Command Palette
Search for a command to run...
Matryoshka-Darstellungslernen
Matryoshka-Darstellungslernen
Zusammenfassung
Gelernte Darstellungen sind ein zentraler Bestandteil moderner maschineller Lernsysteme und dienen einer Vielzahl nachgeschalteter Aufgaben. Bei der Ausbildung solcher Darstellungen sind die rechnerischen und statistischen Beschränkungen für jede nachgeschaltete Aufgabe oft unbekannt. In diesem Kontext können starre, festgelegte Kapazitätsdarstellungen entweder über- oder unterdimensioniert für die jeweilige Aufgabe sein. Dies führt uns zur Frage: Können wir eine flexible Darstellung entwerfen, die sich an mehrere nachgeschaltete Aufgaben mit unterschiedlichen rechnerischen Ressourcen anpassen kann? Unser Hauptbeitrag ist die Matryoshka-Darstellungslernung (Matryoshka Representation Learning, MRL), die Informationen auf unterschiedlichen Granularitätsstufen kodiert und es einer einzigen Embedding-Darstellung ermöglicht, sich an die rechnerischen Beschränkungen nachgeschalteter Aufgaben anzupassen. MRL modifiziert bestehende Darstellungslernpipelines minimal und verursacht während Inferenz und Bereitstellung keinerlei zusätzliche Kosten. MRL lernt grob-zu-fein-Darstellungen, die mindestens genauso genau und informativ sind wie unabhängig trainierte, niedrigdimensionale Darstellungen. Die Flexibilität der gelernten Matryoshka-Darstellungen bietet folgende Vorteile: (a) bis zu 14-fach kleinere Embedding-Größe bei der Klassifikation auf ImageNet-1K bei gleichbleibender Genauigkeit; (b) bis zu 14-fach höhere Geschwindigkeit im realen Einsatz bei großskaliger Recherche auf ImageNet-1K und ImageNet-4K; sowie (c) bis zu 2 Prozentpunkte höhere Genauigkeit bei der Long-Tail Few-Shot-Klassifikation – alles unter Beibehaltung der Robustheit der ursprünglichen Darstellungen. Schließlich zeigen wir, dass MRL nahtlos auf web-skalige Datensätze (ImageNet, JFT) verschiedener Modalitäten übertragbar ist – sowohl für Vision (ViT, ResNet), Vision + Sprache (ALIGN) als auch für Sprache (BERT). Der MRL-Code und vortrainierte Modelle sind unter https://github.com/RAIVNLab/MRL öffentlich zugänglich.