Command Palette
Search for a command to run...
Sapiens: Grundlage für Modelle der menschlichen Sehfähigkeit
Sapiens: Grundlage für Modelle der menschlichen Sehfähigkeit
Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito
Zusammenfassung
Wir stellen Sapiens vor, eine Familie von Modellen für vier grundlegende menschenzentrierte Visionssaufgaben – 2D-Pose-Schätzung, Körperteil-Segmentierung, Tiefenschätzung und Oberflächennormalen-Vorhersage. Unsere Modelle unterstützen standardmäßig hochauflösende Inferenz mit einer Auflösung von 1K und lassen sich durch Feinabstimmung von Modellen, die auf über 300 Millionen natürlichen Menschenbildern vortrainiert wurden, extrem einfach für individuelle Aufgaben anpassen. Wir beobachten, dass bei gleicher Rechenkapazität das selbstüberwachte Vortraining auf einer sorgfältig ausgewählten Datenmenge von Menschenbildern die Leistung für eine Vielzahl menschenzentrierter Aufgaben erheblich steigert. Die resultierenden Modelle zeigen eine bemerkenswerte Generalisierungsfähigkeit für natürliche Daten, auch wenn etikettierte Daten knapp oder vollständig synthetisch sind. Unser einfaches Modellkonzept bietet zudem Skalierbarkeit – die Leistung der Modelle verbessert sich bei allen Aufgaben, wenn wir die Anzahl der Parameter von 0,3 Milliarden auf 2 Milliarden erhöhen. Sapiens übertreffen konsistent bestehende Baseline-Modelle in verschiedenen menschenzentrierten Benchmarks. Wir erreichen erhebliche Verbesserungen gegenüber dem bisherigen Stand der Technik: auf Humans-5K (Pose) um 7,6 mAP, Humans-2K (Part-Seg) um 17,1 mIoU, Hi4D (Tiefe) um 22,4 % relativen RMSE und THuman2 (Normalen) um 53,5 % relativen Winkelfehlers.