FiLM: Visuelles Schließen mit einer allgemeinen Konditionschicht

Wir stellen eine allgemeine Bedingungsmethode für neuronale Netze vor, die als FiLM (Feature-wise Linear Modulation) bezeichnet wird. FiLM-Schichten beeinflussen die Berechnungen in neuronalen Netzen durch eine einfache, featureweise affine Transformation, die auf der Bedingungsinformation basiert. Wir zeigen, dass FiLM-Schichten bei visuellen Schlussfolgerungen – der Beantwortung bildbezogener Fragen, die einen mehrstufigen, hochwertigen Prozess erfordern – sehr effektiv sind. Diese Aufgabe hat sich für herkömmliche Deep-Learning-Methoden, die das Schließen nicht explizit modellieren, als schwierig erwiesen. Insbesondere demonstrieren wir anhand von visuellen Schlussfolgerungsaufgaben, dass FiLM-Schichten 1) den Stand der Technik-Fehler für das CLEVR-Benchmark halbieren, 2) die Features in einer kohärenten Weise modulieren, 3) robust gegenüber Ablationen und architekturmodifizierenden Änderungen sind und 4) gut auf anspruchsvolle neue Daten verallgemeinern können, sei es aus wenigen Beispielen oder sogar im Zero-Shot-Lernen.请注意,这里“Zero-Shot”被翻译为“Zero-Shot-Lernen”,这是指在没有先前训练样本的情况下进行学习的能力。在德语中,这种表达方式是常见的。