
要約
最近の最先端のHOI(Human-Object Interaction)検出手法は、通常、2つのデコーダブランチを持つトランスフォーマー構造に基づいています。1つは人間と物体のペア検出用、もう1つは相互作用分類用です。しかし、このような分離されたトランスフォーマーは、ブランチ間でのコンテキスト交換が不足しており、関係推論に必要なコンテキスト情報が不足する可能性があります。本研究では、人間、物体、および相互作用トークンの単項関係、二項関係、三項関係を用いて3つのデコーダブランチ間で豊富なコンテキスト交換を行うマルチプレックスリレーションネットワーク(MUREN)を提案します。提案手法は包括的な関係コンテキストを学習し、HOIインスタンスの発見において最新の性能を達成しており、HOI検出の標準ベンチマークであるHICO-DETおよびV-COCOで最先端の結果を示しています。