11日前

人間-オブジェクトインタラクションの効率的二段階検出:新たなユニアリ-ペアワイズTransformerを用いた手法

Frederic Z. Zhang, Dylan Campbell, Stephen Gould
人間-オブジェクトインタラクションの効率的二段階検出:新たなユニアリ-ペアワイズTransformerを用いた手法
要約

視覚データ向けTransformerモデルの最近の進展により、認識および検出タスクにおいて顕著な性能向上が達成された。特に、領域提案(region proposals)の代わりに学習可能なクエリ(learnable queries)を用いるアプローチにより、Detection Transformer(DETR)を代表とする一段階型検出モデルの新クラスが登場した。この一段階アプローチを基盤とする手法は、その後、人間-物体インタラクション(Human-Object Interaction, HOI)検出の分野で主流を占めるようになった。しかし、こうした一段階型HOI検出器の成功は、主にTransformerの表現力に起因していると考えられる。本研究では、同じTransformerを搭載した場合、二段階型の対応手法が、はるかに高い性能とメモリ効率を発揮し、トレーニングにかかる時間も大幅に短縮できることを発見した。本研究では、HOIに対して単項(unary)および対項(pairwise)表現を活用する二段階型検出器「Unary-Pairwise Transformer」を提案する。我々の観察によれば、このTransformerネットワークの単項部と対項部はそれぞれ特化しており、前者は正例のスコアを優先的に向上させ、後者は負例のスコアを低下させる傾向にある。提案手法はHICO-DETおよびV-COCOデータセット上で評価され、従来の最先端手法を大幅に上回る性能を示した。推論時においても、ResNet50を用いた本モデルは単一GPU上でリアルタイム性能に近い実行速度を達成している。

人間-オブジェクトインタラクションの効率的二段階検出:新たなユニアリ-ペアワイズTransformerを用いた手法 | 最新論文 | HyperAI超神経