HyperAIHyperAI
vor 11 Tagen

DyTox: Transformers für kontinuierliches Lernen mit dynamischer Token-Erweiterung

Arthur Douillard, Alexandre Ramé, Guillaume Couairon, Matthieu Cord
DyTox: Transformers für kontinuierliches Lernen mit dynamischer Token-Erweiterung
Abstract

Deep-Netzwerk-Architekturen haben Schwierigkeiten, neue Aufgaben kontinuierlich zu lernen, ohne frühere Aufgaben zu vergessen. Ein aktueller Trend zeigt, dass dynamische Architekturen, die auf einer Erweiterung der Parameter basieren, das katastrophale Vergessen in kontinuierlichem Lernen effizient reduzieren können. Allerdings erfordern bestehende Ansätze oft einen Aufgaben-Identifikator zur Testzeit, benötigen komplexe Abstimmung, um das Wachstum der Parameter auszugleichen, und teilen praktisch keine Informationen zwischen den Aufgaben. Dadurch stoßen sie bei einer großen Anzahl von Aufgaben schnell an Grenzen, ohne erhebliche Überhead-Kosten zu verursachen. In diesem Paper stellen wir eine Transformer-Architektur vor, die auf einem speziellen Encoder/Decoder-Framework basiert. Entscheidend ist, dass Encoder und Decoder für alle Aufgaben gemeinsam genutzt werden. Durch eine dynamische Erweiterung spezieller Tokens spezialisieren wir jeweils jeden Durchlauf des Decodernetzwerks auf eine bestimmte Aufgabeverteilung. Unser Ansatz skaliert effizient auf eine große Anzahl von Aufgaben und verursacht dabei vernachlässigbare Speicher- und Zeitkosten, da die Erweiterung der Parameter streng kontrolliert wird. Darüber hinaus erfordert diese effiziente Strategie keinerlei Hyperparameter-Tuning zur Steuerung der Netzwerk-Erweiterung. Unser Modell erreicht hervorragende Ergebnisse auf CIFAR100 und state-of-the-art Leistungen auf den großskaligen Datensätzen ImageNet100 und ImageNet1000, wobei es weniger Parameter besitzt als vergleichbare dynamische Frameworks.

DyTox: Transformers für kontinuierliches Lernen mit dynamischer Token-Erweiterung | Neueste Forschungsarbeiten | HyperAI