Lernen diskreter Darstellungen durch Informationsmaximierung bei selbstverstärktem Training

Das Lernen diskreter Darstellungen von Daten ist eine zentrale Aufgabe des Maschinellen Lernens aufgrund der Kompaktheit der Darstellungen und der leichten Interpretierbarkeit. Diese Aufgabe umfasst Clustering und Hash-Lernen als Spezialfälle. Tief neuronalen Netze sind vielversprechend, da sie die Nichtlinearität der Daten modellieren können und sich auf große Datensätze skalieren lassen. Allerdings ist ihre Modellkomplexität sehr hoch, sodass wir vorsichtig die Netzwerke regularisieren müssen, um nützliche Darstellungen zu lernen, die für interessante Anwendungen gewünschte Invarianzen aufweisen. Zu diesem Zweck schlagen wir eine Methode vor, die Information Maximizing Self-Augmented Training (IMSAT) genannt wird. Bei IMSAT verwenden wir Datenverstärkung (Data Augmentation), um Invarianz auf diskrete Darstellungen zu erzwingen. Genauer gesagt ermutigen wir die vorhergesagten Darstellungen verstärkter Datenpunkte, in einem end-to-end-Prozess denjenigen der ursprünglichen Datenpunkte nahe zu kommen. Gleichzeitig maximieren wir die informations-theoretische Abhängigkeit zwischen den Daten und ihren vorhergesagten diskreten Darstellungen. Umfangreiche Experimente mit Benchmark-Datensätzen zeigen, dass IMSAT sowohl im Clustering als auch im unüberwachten Hash-Lernen Stand-der-Technik-Ergebnisse erzielt.