Meta-Faltungscodierungsnetze für die Einzeldomänenverallgemeinerung

Bei der Einzeldomänenverallgemeinerung müssen Modelle, die ausschließlich mit Daten aus einer einzigen Domäne trainiert wurden, eine gute Leistung auf vielen nicht gesehenen Domänen erbringen. In diesem Artikel stellen wir ein neues Modell vor, das als Meta-Faltungsneuronales Netzwerk (Meta Convolutional Neural Network) bezeichnet wird, um das Problem der Einzeldomänenverallgemeinerung im Bereich der Bilderkennung zu lösen. Der zentrale Ansatz besteht darin, die Faltungsmerkmale von Bildern in sogenannte Meta-Merkmale zu zerlegen. Als „visuelle Wörter“ definiert, stellen Meta-Merkmale universelle und grundlegende visuelle Elemente für die Bildrepräsentation dar (analog zu Wörtern bei der Dokumentrepräsentation in der Sprachverarbeitung). Unter Verwendung der Meta-Merkmale als Referenz schlagen wir zusammensetzende Operationen vor, die durch einen Adressierungsprozess irrelevante lokale Faltungsmerkmale eliminieren und anschließend die Faltungsmerkmalskarten als eine Zusammensetzung relevanter Meta-Merkmale neu formulieren. Auf diese Weise werden Bilder universell kodiert, ohne domänenabhängige Informationen aus der nicht gesehenen Domäne zu beinhalten, sodass sie von nachfolgenden Moduln verarbeitet werden können, die im Quellbereich trainiert wurden. Die zusammensetzenden Operationen nutzen eine Regressionsanalyse, um die Meta-Merkmale in einer online-Batch-Lernform zu erlernen. Umfangreiche Experimente auf mehreren Benchmark-Datensätzen bestätigen die Überlegenheit des vorgeschlagenen Modells hinsichtlich der Verbesserung der Fähigkeit zur Einzeldomänenverallgemeinerung.