DHOG: Deep Hierarchical Object Grouping

Kürzlich haben eine Reihe von wettbewerbsfähigen Methoden das unüberwachte Darstellungslernen durch Maximierung der gegenseitigen Information zwischen den aus Daten-Augmentierungen generierten Darstellungen angegangen. Die resultierenden Darstellungen sind invariant gegenüber stochastischen Augmentierungsstrategien und können für nachgeschaltete Aufgaben wie Clustering oder Klassifikation eingesetzt werden. Dennoch bewahren Daten-Augmentierungen viele Eigenschaften eines Bildes, wodurch die Gefahr besteht, dass eine suboptimale Darstellung entsteht, die auf leicht zu findende Merkmale im Datensatz abgestimmt ist. Wir zeigen, dass gierige oder lokale Methoden zur Maximierung der gegenseitigen Information (wie z. B. stochastische Gradienten-Optimierung) lokale Optima des gegenseitigen Informationskriteriums finden; die daraus resultierenden Darstellungen eignen sich weniger gut für komplexe nachgeschaltete Aufgaben. Frühere Arbeiten haben dieses Problem nicht explizit identifiziert oder adressiert. Wir stellen Deep Hierarchical Object Grouping (DHOG) vor, das eine Reihe von unterschiedlichen diskreten Darstellungen von Bildern hierarchisch berechnet und schließlich Darstellungen generiert, die das Ziel der gegenseitigen Information besser optimieren. Zudem stellen wir fest, dass diese Darstellungen besser mit der nachgeschalteten Aufgabe der Gruppierung in zugrundeliegende Objektklassen übereinstimmen. Wir testeten DHOG im Kontext des unüberwachten Clustering, was eine natürliche nachgeschaltete Aufgabe darstellt, da die Ziel-Darstellung eine diskrete Bezeichnung der Daten ist. Wir erzielten neue SOTA-Ergebnisse auf drei zentralen Benchmarks, ohne dass vorherige Filterung oder Kantendetektion mittels Sobel-Filter notwendig war – wie dies für viele frühere Methoden erforderlich war. Die Genauigkeitsverbesserungen betragen: 4,3 % auf CIFAR-10, 1,5 % auf CIFAR-100-20 und 7,2 % auf SVHN.