HyperAIHyperAI
vor 2 Monaten

HumanBench: Auf dem Weg zu einer allgemeinen menschenzentrierten Wahrnehmung mit projektorunterstütztem Vortraining

Shixiang Tang; Cheng Chen; Qingsong Xie; Meilin Chen; Yizhou Wang; Yuanzheng Ci; Lei Bai; Feng Zhu; Haiyang Yang; Li Yi; Rui Zhao; Wanli Ouyang
HumanBench: Auf dem Weg zu einer allgemeinen menschenzentrierten Wahrnehmung mit projektorunterstütztem Vortraining
Abstract

Menschenzentrierte Wahrnehmungen umfassen eine Vielzahl von Visionssystemen, die weit verbreitete industrielle Anwendungen haben, darunter Überwachung, autonome Fahrt und das Metaversum. Es ist wünschenswert, ein allgemeines Vortrainingsmodell für vielseitige menschenzentrierte Downstream-Aufgaben zu haben. In dieser Arbeit wird an diesem Ansatz sowohl im Bereich der Benchmarks als auch der Vortrainingsmethoden weiter geforscht. Insbesondere schlagen wir \textbf{HumanBench} vor, das auf bestehenden Datensätzen basiert und die Generalisierungsfähigkeiten verschiedener Vortrainingsmethoden auf 19 Datensätzen aus sechs diversen Downstream-Aufgaben umfassend evaluiert, einschließlich Person-ReID (Re-Identification), Pose-Schätzung (Pose Estimation), Menschensegmentierung (Human Parsing), Pedestrienattributerkennung (Pedestrian Attribute Recognition), Fußgängererkennung (Pedestrian Detection) und Menschenzählung (Crowd Counting). Um sowohl grob- als auch feinkörniges Wissen im menschlichen Körper zu erlernen, schlagen wir zudem eine \textbf{P}rojektor-\textbf{A}ssistierte-\textbf{T}rainer-\textbf{H}ierarchische Vortrainingsmethode (\textbf{PATH}) vor, die unterschiedliches Wissen auf verschiedenen Granularitätsebenen erlernt. Umfassende Evaluierungen mit HumanBench zeigen, dass unser PATH neue Stand-of-the-Art-Ergebnisse auf 17 Downstream-Datensätzen erreicht und vergleichbare Ergebnisse auf den anderen 2 Datensätzen erzielt. Der Code wird öffentlich zur Verfügung gestellt unter \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.

HumanBench: Auf dem Weg zu einer allgemeinen menschenzentrierten Wahrnehmung mit projektorunterstütztem Vortraining | Neueste Forschungsarbeiten | HyperAI