Multimodales Side-Tuning für die Dokumentenklassifikation

In diesem Artikel schlagen wir vor, den Side-Tuning-Ansatz für die multimodale Dokumentklassifikation zu nutzen. Side-Tuning ist eine kürzlich vorgestellte Methodik zur Anpassung von Netzwerken, die bestimmte Probleme der bisherigen Ansätze adressiert. Durch diese Technik ist es tatsächlich möglich, die Modellstarre und das katastrophale Vergessen bei der Transferlernen-Feinjustierung zu überwinden. Die vorgeschlagene Lösung nutzt herkömmliche tiefe Lernarchitekturen und kombiniert dabei ein Basismodell mit einem Paar von Nebennetzen innerhalb des Side-Tuning-Rahmens. Wir zeigen, dass Side-Tuning auch dann erfolgreich eingesetzt werden kann, wenn unterschiedliche Datenquellen berücksichtigt werden, beispielsweise Text und Bilder bei der Dokumentklassifikation. Die experimentellen Ergebnisse belegen, dass dieser Ansatz die Genauigkeit der Dokumentklassifikation gegenüber dem Stand der Technik weiter verbessert.