2ヶ月前
オブジェクト中心のマルチタスク学習の人間インスタンス向けアプローチ
Son, Hyeongseok ; Jung, Sangil ; Lee, Solae ; Kim, Seongeun ; Park, Seung-In ; Yoo, ByungIn

要約
人間は視覚認識タスクにおいて最も重要なクラスの一つであり、検出、セグメンテーション、姿勢推定などのタスクに不可欠です。個々のタスクには多くの努力が払われていますが、これらの3つのタスクを対象とした多タスク学習はほとんど研究されていません。本論文では、オブジェクト中心学習を通じて複数のタスク間でパラメータを最大限共有するコンパクトな多タスクネットワークアーキテクチャを探索します。この目的のために、人間インスタンス情報を効果的に符号化する新しいクエリ設計である「人間中心クエリ(HCQ)」を提案します。HCQは、キーポイントなども含む人間の明示的かつ構造的な情報を学習することを可能にします。さらに、目標タスクの予測ヘッドで直接HCQを利用するとともに、トランスフォーマーのデコーダーにおける変形可能な注意機構とHCQを組み合わせることで、よく学習されたオブジェクト中心表現を活用しています。実験結果は、提案された多タスクネットワークが人間検出、セグメンテーション、姿勢推定タスクにおいて最先端の特定タスクモデルと同等の精度を達成し、かつ計算コストが少ないことを示しています。