Lokale Aggregation für das unüberwachte Lernen visueller Einbettungen

Unüberwachte Lernverfahren in neuronalen Netzen sind von erheblichem Interesse für die Weiterentwicklung der Künstlichen Intelligenz, sowohl weil sie das Training von Netzen ohne die Notwendigkeit großer Mengen kostenintensiver Annotationen ermöglichen, als auch weil sie bessere Modelle des allgemeinen Lernens darstellen, das von Menschen eingesetzt wird. Unüberwachte Netzwerke haben jedoch seit langem in ihrer Leistung hinter den überwachten Kontrahenten zurückgestanden, insbesondere im Bereich der großmaßstäblichen visuellen Erkennung. Neuere Entwicklungen bei der Schulung tiefer konvolutiver Einbettungen zur Maximierung nichtparametrischer Instanztrennungs- und Clustierziele haben gezeigt, dass es möglich ist, diese Lücke zu schließen. In diesem Artikel beschreiben wir eine Methode, die eine Einbettungsfunktion trainiert, um ein Maß der lokalen Aggregation zu maximieren. Dies bewirkt, dass ähnliche Dateninstanzen sich im Einbettungsraum zusammenbewegen, während unähnliche Instanzen getrennt werden können. Dieses Aggregationsmaß ist dynamisch und ermöglicht die Bildung weicher Cluster unterschiedlicher Größen. Wir evaluieren unser Verfahren auf mehreren Datensätzen für großmaßstäbliche visuelle Erkennung und erreichen dabei den aktuellen Stand der Technik in Bezug auf unüberwachtes Transferlernen bei Objekterkennung in ImageNet, Szenerkennung in Places 205 und Objektdetektion in PASCAL VOC.