Bootstrap your own latent: Ein neuer Ansatz zum selbstüberwachten Lernen

Wir stellen Bootstrap Your Own Latent (BYOL) vor, einen neuen Ansatz für das selbstüberwachte Lernen von Bildrepräsentationen. BYOL basiert auf zwei neuronalen Netzen, die als Online- und Target-Netze bezeichnet werden und voneinander lernen. Aus einer erweiterten Sicht eines Bildes trainieren wir das Online-Netz, um die Repräsentation des gleichen Bildes durch das Target-Netz unter einer anderen erweiterten Sicht zu vorhersagen. Gleichzeitig aktualisieren wir das Target-Netz mit einem langsam verlaufenden Mittelwert des Online-Netzes. Während sich stand der Technik-methoden auf negative Paare stützen, erreicht BYOL eine neue Stand der Technik ohne diese. BYOL erreicht eine Top-1-Klassifikationsgenauigkeit von 74,3 % auf ImageNet bei Verwendung einer linearen Bewertung mit einer ResNet-50-Architektur und 79,6 % mit einem größeren ResNet. Wir zeigen, dass BYOL in Transfer-Lernszenarien und semi-supervisierten Benchmarks gleich gut oder besser als der aktuelle Stand der Technik performt. Unsere Implementierung und vorab trainierten Modelle sind auf GitHub verfügbar.请注意,这里有一些术语的翻译:- "self-supervised image representation learning" 翻译为 "selbstüberwachtes Lernen von Bildrepräsentationen"- "online and target networks" 翻译为 "Online- und Target-Netze"- "negative pairs" 翻译为 "negative Paare"- "Top-1 classification accuracy" 翻译为 "Top-1-Klassifikationsgenauigkeit"- "Transfer-Lernszenarien" 和 "semi-supervisierten Benchmarks" 分别对应 "transfer learning scenarios" 和 "semi-supervised benchmarks"这些翻译在德语科技文献中较为常用,以确保专业性和准确性。