Jigsaw-ViT: Lernen von Puzzles in Vision Transformers

Der Erfolg des Vision Transformer (ViT) bei verschiedenen Aufgaben im Bereich des maschinellen Sehens hat die zunehmende Verbreitung dieses convolutionsfreien Netzwerks gefördert. Da ViT auf Bildpatches arbeitet, ist es potenziell gut geeignet für das Lösen von Puzzles, einem klassischen selbstüberwachten Lernansatz, der darauf abzielt, zufällig gemischte, sequenziell angeordnete Bildpatches in ihre ursprüngliche, natürliche Anordnung zurückzuführen. Trotz seiner Einfachheit hat sich gezeigt, dass das Lösen von Puzzles mithilfe von Convolutional Neural Networks (CNNs) für eine Vielzahl von Aufgaben nützlich ist, beispielsweise für die selbstüberwachte Lernung von Merkmalen, die Generalisierung über Domänen hinaus und die feinkörnige Klassifikation.In dieser Arbeit untersuchen wir das Lösen von Puzzles als selbstüberwachte Hilfsaufgabe innerhalb eines ViT für die Bildklassifikation, das wir Jigsaw-ViT nennen. Wir zeigen zwei Modifikationen, die Jigsaw-ViT gegenüber dem herkömmlichen ViT überlegen machen: die Eliminierung von Positionseingaben und das zufällige Maskieren von Patchs. Obwohl diese Ansätze einfach erscheinen, stellen wir fest, dass Jigsaw-ViT sowohl die Generalisierungsfähigkeit als auch die Robustheit gegenüber dem Standard-ViT verbessert – ein Effekt, der normalerweise als Kompromiss zwischen beiden Aspekten betrachtet wird. Experimentell zeigen wir, dass die Hinzufügung des Puzzles-Verzweigungszweigs auf großen Datensätzen wie ImageNet eine bessere Generalisierung als der herkömmliche ViT erzielt. Darüber hinaus verbessert die Hilfsaufgabe auch die Robustheit gegenüber verrauschten Labels auf den Datensätzen Animal-10N, Food-101N und Clothing1M sowie gegenüber adversarialen Beispielen. Die Implementierung ist unter https://yingyichen-cyy.github.io/Jigsaw-ViT/ verfügbar.