Temporal FiLM: Erfassung von langfristigen Sequenzabhängigkeiten durch featureweise Modulationen

Das Lernen von Repräsentationen, die langfristige Abhängigkeiten in sequentiellen Eingaben – einschließlich Text, Audio und genomischen Daten – präzise erfassen, ist ein zentrales Problem im Deep Learning. Faltungsschicht-basierte feedforward-Modelle erfassen nur Merkmalsinteraktionen innerhalb endlicher Rezeptionsfelder, während rekurrente Architekturen aufgrund verschwindender Gradienten langsam und schwierig zu trainieren sein können. In diesem Beitrag schlagen wir Temporal Feature-Wise Linear Modulation (TFiLM) vor – eine neuartige architekturale Komponente, inspiriert von adaptiver Batch-Normalisierung und deren Erweiterungen – die es ermöglicht, dass ein rekurrentes Neuronales Netzwerk die Aktivierungen eines faltungsnetzbasierten Modells verändert. Dieser Ansatz erweitert das Rezeptionsfeld von faltungsbasierten sequentiellen Modellen mit minimalem rechnerischem Overhead. Empirisch stellen wir fest, dass TFiLM die Lerngeschwindigkeit und -genauigkeit von feedforward-Neuronalen Netzen bei einer Reihe von generativen und diskriminativen Lernaufgaben erheblich verbessert, darunter Textklassifizierung und Audiosuperresolution.