2ヶ月前

ハルク:人間中心タスクのための普遍的な知識翻訳者

Wang, Yizhou ; Wu, Yixuan ; Tang, Shixiang ; He, Weizhen ; Guo, Xun ; Zhu, Feng ; Bai, Lei ; Zhao, Rui ; Wu, Jian ; He, Tong ; Ouyang, Wanli
ハルク:人間中心タスクのための普遍的な知識翻訳者
要約

人間中心の知覚タスク、例えば歩行者検出、骨格ベースの行動認識、姿勢推定などは、メタバースやスポーツ分析などの広範な産業応用を持っています。最近では、これらの多様な人間中心の知覚タスクに貢献するための人間中心の基盤モデルの開発が急速に進んでいます。多くの人間中心の基盤モデルが成功を収めていますが、3Dや視覚言語タスクへの対応は十分ではなく、特定のタスク向けの微調整が必要でした。これらの制約により、より多くの下流タスクや状況への適用が制限されていました。これらの問題を解決するために、私たちはHulk(ハルク)と呼ばれる最初のマルチモーダル人間中心汎用モデルを提案します。このモデルは、特定のタスク向けの微調整なしで2D視覚、3D視覚、骨格ベース、および視覚言語タスクに対処することができます。この実現のために重要なのは、様々な特定のタスクヘッドを2つの一般的なヘッドに凝縮することです。1つは離散表現(言語など)、もう1つは連続表現(位置座標など)を扱うヘッドです。これら2つのヘッドからの出力はさらに4つの異なる入出力モーダリティにスタックすることができます。この一貫した表現により、Hulkは多様な人間中心の知覚タスクをモーダリティ変換として扱い、幅広いタスク間に知識を統合することが可能になります。Hulkについて8つの人間中心知覚タスクをカバーする12ベンチマークでの包括的な評価を行い、提案手法の優位性が示されました。11ベンチマークで最先端の性能を達成しています。コードはhttps://github.com/OpenGVLab/Hulk から利用可能です。