HyperAIHyperAI

Command Palette

Search for a command to run...

Hulk: Ein universeller Wissensübersetzer für menschenzentrierte Aufgaben

Zusammenfassung

Menschzentrierte Wahrnehmungsaufgaben, wie zum Beispiel Fußgängererkennung, Skelettbasierte Aktionserkennung und Pose-Schätzung, haben eine breite industrielle Anwendung, etwa im Metaversum und in der Sportanalyse. In letzter Zeit gibt es einen starken Trend zur Entwicklung von menschzentrierten Grundmodellen, die einem breiten Spektrum an menschzentrierten Wahrnehmungsaufgaben zugutekommen können. Obwohl viele dieser menschzentrierten Grundmodelle Erfolge erzielt haben, wurden 3D- und Vision-Sprachaufgaben nicht ausreichend untersucht und es war eine aufgabenbezogene Feinabstimmung erforderlich. Diese Einschränkungen begrenzen ihre Anwendung auf weitere Downstream-Aufgaben und Situationen. Um diese Probleme zu lösen, präsentieren wir Hulk, das erste multimodale allgemeine Modell für menschzentrierte Aufgaben, das in der Lage ist, 2D-Vision, 3D-Vision, skelettbasierte und Vision-Sprachaufgaben ohne aufgabenbezogene Feinabstimmung zu bearbeiten. Der Schlüssel hierfür liegt darin, verschiedene aufgabenbezogene Heads in zwei allgemeine Heads zu kondensieren: einen für diskrete Darstellungen (z.B. Sprachen) und einen für kontinuierliche Darstellungen (z.B. Ortskoordinaten). Die Ausgänge dieser beiden Heads können weiter in vier unterschiedliche Eingabe- und Ausgabemodalitäten gestapelt werden. Diese einheitliche Darstellung ermöglicht es Hulk, vielfältige menschzentrierte Aufgaben als Modalitätstranslation zu behandeln und Wissen über einen breiten Bereich von Aufgaben zu integrieren. Umfassende Evaluierungen von Hulk an 12 Benchmarks, die 8 menschzentrierte Aufgaben abdecken, zeigen die Überlegenheit unserer vorgeschlagenen Methode auf: Sie erreicht den aktuellen Stand der Technik in 11 Benchmarks. Der Code ist unter https://github.com/OpenGVLab/Hulk verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp