HyperAIHyperAI
vor einem Monat

Universelle Repräsentationen: Der fehlende Link zwischen Gesichtern, Texten, Plankton und Katzenrassen

Hakan Bilen; Andrea Vedaldi
Universelle Repräsentationen: Der fehlende Link zwischen Gesichtern, Texten, Plankton und Katzenrassen
Abstract

Mit der Einführung großer annotierter Datensätze und hochkapazitiver Modelle hat sich die Leistung von Maschinenvisionssystemen rapide verbessert. Dennoch hat die Technologie noch erhebliche Einschränkungen, beginnend damit, dass verschiedene Visionprobleme immer noch durch unterschiedliche Modelle gelöst werden, die entweder von Grund auf neu trainiert oder auf den Zieldaten feinjustiert werden. Im Gegensatz dazu lernt das menschliche visuelle System eine universelle Darstellung für die Vision in den frühen Lebensjahren eines Individuums. Diese Darstellung funktioniert gut für eine enorme Vielfalt an Visionproblemen, mit wenig oder gar keiner Anpassung, wodurch der Vorteil entsteht, dass nur wenig Trainingsdaten benötigt werden, um sie zu lösen.In dieser Arbeit untersuchen wir, ob neuronale Netze als universelle Darstellungen fungieren können, indem wir ihre Kapazität im Verhältnis zur „Größe“ einer großen Kombination von Visionproblemen studieren. Wir tun dies, indem wir zeigen, dass ein einzelnes neuronales Netzwerk gleichzeitig mehrere sehr unterschiedliche visuelle Domänen (von Skizzen bis hin zu Plankton und MNIST-Ziffern) lernen kann, und dabei genauso gut oder sogar besser abschneidet als eine Reihe spezialisierter Netze. Gleichzeitig zeigen wir jedoch auch, dass dies erfordert, die Informationen im Netzwerk sorgfältig zu normalisieren, indem man domänenspezifische Skalierungsfaktoren verwendet oder allgemeiner durch den Einsatz einer Instanznormalisierungsschicht.

Universelle Repräsentationen: Der fehlende Link zwischen Gesichtern, Texten, Plankton und Katzenrassen | Neueste Forschungsarbeiten | HyperAI