Objektzentriertes Mehrfach-Aufgaben-Lernen für menschliche Instanzen

Mensch ist eine der wichtigsten Klassen in visuellen Erkennungsaufgaben wie Detektion, Segmentierung und Pose-Schätzung. Obwohl viel Aufwand in die einzelnen Aufgaben investiert wurde, wurden Studien zu Multi-Task-Lernen für diese drei Aufgaben selten durchgeführt. In dieser Arbeit untersuchen wir eine kompakte Multi-Task-Netzarchitektur, die die Parameter der mehreren Aufgaben durch objektorientiertes Lernen maximal teilt. Zu diesem Zweck schlagen wir ein neuartiges Abfragekonzept vor, um Informationen über menschliche Instanzen effektiv zu kodieren, das als humanzentrierte Abfrage (HCQ) bezeichnet wird. HCQ ermöglicht es, explizite und strukturelle Informationen über den Menschen, einschließlich Schlüsselpunkte, zu lernen. Darüber hinaus verwenden wir HCQ direkt in den Vorhersageköpfen der Zielaufgaben und verflechten es mit der deformierbaren Aufmerksamkeit in den Transformer-Decodern, um eine gut gelernte objektorientierte Repräsentation auszunutzen. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Multi-Task-Netz vergleichbare Genauigkeit wie die besten task-spezifischen Modelle in den Aufgaben der Menschenerkennung, -segmentierung und -pose-Schätzung erreicht, während es weniger Rechenkosten verbraucht.