HyperAIHyperAI
vor 2 Monaten

Jenseits des Äußeren: Ein semantisch steuerbares selbstüberwachtes Lernframework für menschenzentrierte visuelle Aufgaben

Weihua Chen; Xianzhe Xu; Jian Jia; Hao luo; Yaohua Wang; Fan Wang; Rong Jin; Xiuyu Sun
Jenseits des Äußeren: Ein semantisch steuerbares selbstüberwachtes Lernframework für menschenzentrierte visuelle Aufgaben
Abstract

Menschzentrierte visuelle Aufgaben haben aufgrund ihrer weit verbreiteten Anwendungen zunehmend die Aufmerksamkeit der Forschung gezogen. In dieser Arbeit zielen wir darauf ab, eine allgemeine menschliche Repräsentation aus massenhaften unbeschrifteten Bildern von Menschen zu erlernen, die den nachgelagerten menschzentrierten Aufgaben in maximalem Maße nützt. Wir bezeichnen diese Methode als SOLIDER, ein semantisch steuerbares selbstüberwachtes Lernframework (Semantic cOntrollable seLf-supervIseD lEaRning). Im Gegensatz zu den bestehenden Methoden des selbstüberwachten Lernens nutzt SOLIDER Vorwissen aus Bildern von Menschen, um Pseudo-Semantiklabels zu erstellen und mehr semantische Informationen in die gelernte Repräsentation einzubinden. Gleichzeitig bemerken wir, dass verschiedene nachgelagerte Aufgaben unterschiedliche Verhältnisse von semantischen und äußeren Informationen erfordern. Zum Beispiel benötigt die menschliche Segmentierung mehr semantische Informationen, während die Personenerkennung (Person Re-Identification) für Identifikationszwecke mehr äußere Informationen benötigt. Daher kann eine einzelne gelernte Repräsentation nicht allen Anforderungen gerecht werden. Um dieses Problem zu lösen, führt SOLIDER ein bedingtes Netzwerk mit einem Semantikcontroller ein. Nach dem Training des Modells können Benutzer Werte an den Controller senden, um Repräsentationen mit unterschiedlichen Verhältnissen von semantischen Informationen zu erzeugen, die sich den verschiedenen Anforderungen der nachgelagerten Aufgaben anpassen können. Schließlich wird SOLIDER an sechs nachgelagerten menschzentrierten visuellen Aufgaben überprüft. Es übertrifft den Stand der Technik und legt neue Baselines für diese Aufgaben fest. Der Code ist unter https://github.com/tinyvision/SOLIDER veröffentlicht.

Jenseits des Äußeren: Ein semantisch steuerbares selbstüberwachtes Lernframework für menschenzentrierte visuelle Aufgaben | Neueste Forschungsarbeiten | HyperAI