Sapiens: Grundlage für Modelle der menschlichen Sehfähigkeit

Wir stellen Sapiens vor, eine Familie von Modellen für vier grundlegende menschenzentrierte Visionssaufgaben – 2D-Pose-Schätzung, Körperteil-Segmentierung, Tiefenschätzung und Oberflächennormalen-Vorhersage. Unsere Modelle unterstützen standardmäßig hochauflösende Inferenz mit einer Auflösung von 1K und lassen sich durch Feinabstimmung von Modellen, die auf über 300 Millionen natürlichen Menschenbildern vortrainiert wurden, extrem einfach für individuelle Aufgaben anpassen. Wir beobachten, dass bei gleicher Rechenkapazität das selbstüberwachte Vortraining auf einer sorgfältig ausgewählten Datenmenge von Menschenbildern die Leistung für eine Vielzahl menschenzentrierter Aufgaben erheblich steigert. Die resultierenden Modelle zeigen eine bemerkenswerte Generalisierungsfähigkeit für natürliche Daten, auch wenn etikettierte Daten knapp oder vollständig synthetisch sind. Unser einfaches Modellkonzept bietet zudem Skalierbarkeit – die Leistung der Modelle verbessert sich bei allen Aufgaben, wenn wir die Anzahl der Parameter von 0,3 Milliarden auf 2 Milliarden erhöhen. Sapiens übertreffen konsistent bestehende Baseline-Modelle in verschiedenen menschenzentrierten Benchmarks. Wir erreichen erhebliche Verbesserungen gegenüber dem bisherigen Stand der Technik: auf Humans-5K (Pose) um 7,6 mAP, Humans-2K (Part-Seg) um 17,1 mIoU, Hi4D (Tiefe) um 22,4 % relativen RMSE und THuman2 (Normalen) um 53,5 % relativen Winkelfehlers.