要約
人間-物体インタラクション(HOI)検出は、人物が物体とどのように相互作用しているかを認識する技術であり、自動運転車や協働ロボットなどの自律システムにおいて極めて有用である。しかし、現行のHOI検出モデルは予測時にモデルの非効率性や信頼性の欠如に悩まされており、実世界における応用可能性が制限されている。本論文では、このような課題に対処するため、HOI検出を目的としたエンド・ツー・エンドで学習可能な畳み込み-TransformerネットワークであるERNetを提案する。本モデルは、重要なHOI特徴を効果的に捉えるために、効率的なマルチスケール可変アテンションを採用している。さらに、意味的に豊かなインスタンスおよびインタラクショントークンを適応的に生成する新たな検出アテンションモジュールを提案する。これらのトークンは事前に検出され、初期の領域およびベクトル提案を生成する一方で、Transformerデコーダ内の特徴精製プロセスを強化するクエリとしても機能する。また、HOI表現学習の向上を図るため、いくつかの効果的な改良を導入している。さらに、インスタンスおよびインタラクション分類ヘッドにおいて予測不確実性推定フレームワークを活用し、各予測の背後にある不確実性を定量的に評価している。これにより、困難な状況下でも正確かつ信頼性の高いHOI予測が可能となる。HICO-Det、V-COCO、HOI-Aの各データセットにおける実験結果から、提案モデルが検出精度および学習効率の面で最先端の性能を達成していることが示された。コードは公開されており、https://github.com/Monash-CyPhi-AI-Research-Lab/ernet にて入手可能である。