Skalierbarer Transfer-Learning mit Expertenmodellen

Die Übertragung vortrainierter Darstellungen kann die Stichprobeneffizienz verbessern und die rechnerischen Anforderungen für neue Aufgaben reduzieren. Allerdings sind die für die Übertragung verwendeten Darstellungen meist generisch und nicht an eine spezifische Verteilung nachgeschalteter Aufgaben angepasst. Wir untersuchen den Einsatz von Expertendarstellungen für die Übertragung mit einer einfachen, dennoch wirksamen Strategie. Wir trainieren eine Vielzahl von Experte durch Ausnutzung bestehender Labelstrukturen und verwenden kostengünstige, leicht berechenbare Leistungsproxy, um für jede Zielaufgabe den jeweils relevanten Experte auszuwählen. Diese Strategie skaliert den Übertragungsprozess auf neue Aufgaben, da während der Übertragung nicht erneut auf die vortrainierten Daten zugegriffen wird. Dadurch erfordert sie pro Zielaufgabe nur geringfügig zusätzlichen Rechenaufwand und führt im Vergleich zu konkurrierenden Ansätzen zu einer Beschleunigung um den Faktor 2 bis 3 Größenordnungen. Darüber hinaus stellen wir eine adapterbasierte Architektur vor, die es ermöglicht, viele Experte in einem einzigen Modell zu komprimieren. Wir evaluieren unseren Ansatz an zwei unterschiedlichen Datensätzen und zeigen, dass er in beiden Fällen über 20 verschiedene visuelle Aufgaben hinweg die Baseline-Methoden übertrifft.