HyperAIHyperAI
vor 2 Monaten

Lernen von Darstellungen durch die Maximierung der gegenseitigen Information über verschiedene Ansichten

Philip Bachman; R Devon Hjelm; William Buchwalter
Lernen von Darstellungen durch die Maximierung der gegenseitigen Information über verschiedene Ansichten
Abstract

Wir schlagen einen Ansatz für das selbstüberwachte Lernverfahren von Repräsentationen vor, der auf der Maximierung der gegenseitigen Information zwischen Merkmalen basiert, die aus mehreren Sichten eines gemeinsamen Kontexts extrahiert werden. Zum Beispiel könnte man verschiedene Sichten eines lokalen räumlich-zeitlichen Kontexts durch dessen Beobachtung von unterschiedlichen Standorten (z.B. Kamerapositionen innerhalb einer Szene) und über verschiedene Modalitäten (z.B. taktile, auditive oder visuelle) erzeugen. Oder ein Bild aus dem ImageNet-Datensatz könnte einen Kontext liefern, aus dem man durch wiederholte Anwendung von Datenverstärkungstechniken mehrere Sichten erzeugt. Die Maximierung der gegenseitigen Information zwischen den Merkmalen, die aus diesen Sichten extrahiert werden, erfordert die Erfassung von Informationen über hochrangige Faktoren, deren Einfluss sich über mehrere Sichten erstreckt – z.B. die Präsenz bestimmter Objekte oder das Auftreten bestimmter Ereignisse.Indem wir unseren vorgeschlagenen Ansatz verfolgen, entwickeln wir ein Modell, das Bildrepräsentationen lernt, die bei den von uns betrachteten Aufgaben erheblich bessere Ergebnisse als frühere Methoden erzielen. Besonders bemerkenswert ist dabei, dass unser Modell mithilfe des selbstüberwachten Lernens Repräsentationen lernt, die eine Genauigkeit von 68,1 % auf ImageNet bei Standardlinearevaluation erreichen. Dies übertreffen frühere Ergebnisse um über 12 % und gleichzeitige Ergebnisse um 7 %. Wenn wir unser Modell zur Verwendung von mengenbasierten Repräsentationen erweitern, tritt Segmentierungsverhalten als natürliche Nebenerscheinung auf. Unser Code ist online verfügbar: https://github.com/Philip-Bachman/amdim-public.

Lernen von Darstellungen durch die Maximierung der gegenseitigen Information über verschiedene Ansichten | Neueste Forschungsarbeiten | HyperAI