ERWEITERUNG BEDINGTER FALTSTRUKTUREN ZUR STEIGERUNG DER MULTITAASKONTINUIERLICHEN LERNLEISTUNG

Bedingte Operationen haben in jüngsten Studien zum tiefen Lernen erhebliche Aufmerksamkeit erfahren, um die Vorhersagegenauigkeit von Modellen zu verbessern. Ein kürzlich erzielter Fortschritt in diese Richtung ist die bedingte parametrische Faltung (CondConv), die darauf abzielt, zusätzliche Kapazitäten durch die Gewichte tiefgelegener Modelle auszunutzen, um die Leistung zu steigern, ohne dass sich die Berechnungskomplexität des Modells signifikant erhöht. CondConv verwendet eingabehängige Fusionsparameter, die mehrere Spalten von Faltungskernen adaptiv kombinieren, um die Leistung zu verbessern. Im Laufzeitbetrieb werden die Kernelspalten online zu einer einzigen Faltungskernel kombiniert, wodurch die Zeitkomplexität deutlich geringer ist als bei der Verwendung mehrerer Spalten innerhalb einer Faltungsschicht bei gleichbleibender Kapazität. Obwohl CondConv effektiv zur Leistungssteigerung tiefer Modelle beiträgt, wird es derzeit ausschließlich für Einzelaufgaben eingesetzt. Da es die vorteilhafte Eigenschaft besitzt, zusätzliche Modellgewichte mit geringer Berechnungskomplexität hinzuzufügen, erweitern wir es nun für das mehrfachaufgabenbasierte Lernen (multi-task learning), bei dem die Aufgaben sequenziell präsentiert werden. In dieser Arbeit stellen wir einen Ansatz für sequenzielles (oder kontinuierliches) Mehraufgabenlernen vor, der auf der CondConv-Architektur basiert und als CondConv-Continual bezeichnet wird. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Ansatz effektiv für das „vergessensfreie“ kontinuierliche Lernen ist. Im Vergleich zu bestehenden Ansätzen bietet CondConv den Vorteil einer regelmäßigen und einfach umzusetzenden Erweiterung neuronaler Netzwerke zur Gewinnung zusätzlicher Kapazität sowie eine Kreuzreferenzmechanik zwischen verschiedenen Aufgabenmodellen, um vergleichbare Ergebnisse zu erzielen.