Hulk: Ein universeller Wissensübersetzer für menschenzentrierte Aufgaben

Menschzentrierte Wahrnehmungsaufgaben, wie zum Beispiel Fußgängererkennung, Skelettbasierte Aktionserkennung und Pose-Schätzung, haben eine breite industrielle Anwendung, etwa im Metaversum und in der Sportanalyse. In letzter Zeit gibt es einen starken Trend zur Entwicklung von menschzentrierten Grundmodellen, die einem breiten Spektrum an menschzentrierten Wahrnehmungsaufgaben zugutekommen können. Obwohl viele dieser menschzentrierten Grundmodelle Erfolge erzielt haben, wurden 3D- und Vision-Sprachaufgaben nicht ausreichend untersucht und es war eine aufgabenbezogene Feinabstimmung erforderlich. Diese Einschränkungen begrenzen ihre Anwendung auf weitere Downstream-Aufgaben und Situationen. Um diese Probleme zu lösen, präsentieren wir Hulk, das erste multimodale allgemeine Modell für menschzentrierte Aufgaben, das in der Lage ist, 2D-Vision, 3D-Vision, skelettbasierte und Vision-Sprachaufgaben ohne aufgabenbezogene Feinabstimmung zu bearbeiten. Der Schlüssel hierfür liegt darin, verschiedene aufgabenbezogene Heads in zwei allgemeine Heads zu kondensieren: einen für diskrete Darstellungen (z.B. Sprachen) und einen für kontinuierliche Darstellungen (z.B. Ortskoordinaten). Die Ausgänge dieser beiden Heads können weiter in vier unterschiedliche Eingabe- und Ausgabemodalitäten gestapelt werden. Diese einheitliche Darstellung ermöglicht es Hulk, vielfältige menschzentrierte Aufgaben als Modalitätstranslation zu behandeln und Wissen über einen breiten Bereich von Aufgaben zu integrieren. Umfassende Evaluierungen von Hulk an 12 Benchmarks, die 8 menschzentrierte Aufgaben abdecken, zeigen die Überlegenheit unserer vorgeschlagenen Methode auf: Sie erreicht den aktuellen Stand der Technik in 11 Benchmarks. Der Code ist unter https://github.com/OpenGVLab/Hulk verfügbar.