HyperAIHyperAI

Command Palette

Search for a command to run...

Jigsaw-ViT: Lernen von Puzzles in Vision Transformers

Yingyi Chen Xi Shen Yahui Liu Qinghua Tao Johan A.K. Suykens

Zusammenfassung

Der Erfolg des Vision Transformer (ViT) bei verschiedenen Aufgaben im Bereich des maschinellen Sehens hat die zunehmende Verbreitung dieses convolutionsfreien Netzwerks gefördert. Da ViT auf Bildpatches arbeitet, ist es potenziell gut geeignet für das Lösen von Puzzles, einem klassischen selbstüberwachten Lernansatz, der darauf abzielt, zufällig gemischte, sequenziell angeordnete Bildpatches in ihre ursprüngliche, natürliche Anordnung zurückzuführen. Trotz seiner Einfachheit hat sich gezeigt, dass das Lösen von Puzzles mithilfe von Convolutional Neural Networks (CNNs) für eine Vielzahl von Aufgaben nützlich ist, beispielsweise für die selbstüberwachte Lernung von Merkmalen, die Generalisierung über Domänen hinaus und die feinkörnige Klassifikation.In dieser Arbeit untersuchen wir das Lösen von Puzzles als selbstüberwachte Hilfsaufgabe innerhalb eines ViT für die Bildklassifikation, das wir Jigsaw-ViT nennen. Wir zeigen zwei Modifikationen, die Jigsaw-ViT gegenüber dem herkömmlichen ViT überlegen machen: die Eliminierung von Positionseingaben und das zufällige Maskieren von Patchs. Obwohl diese Ansätze einfach erscheinen, stellen wir fest, dass Jigsaw-ViT sowohl die Generalisierungsfähigkeit als auch die Robustheit gegenüber dem Standard-ViT verbessert – ein Effekt, der normalerweise als Kompromiss zwischen beiden Aspekten betrachtet wird. Experimentell zeigen wir, dass die Hinzufügung des Puzzles-Verzweigungszweigs auf großen Datensätzen wie ImageNet eine bessere Generalisierung als der herkömmliche ViT erzielt. Darüber hinaus verbessert die Hilfsaufgabe auch die Robustheit gegenüber verrauschten Labels auf den Datensätzen Animal-10N, Food-101N und Clothing1M sowie gegenüber adversarialen Beispielen. Die Implementierung ist unter https://yingyichen-cyy.github.io/Jigsaw-ViT/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Jigsaw-ViT: Lernen von Puzzles in Vision Transformers | Paper | HyperAI