13日前
人間-オブジェクトインタラクション認識における見過ごされた分類器
Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Lin Liang, Jenq-Neng Hwang, Zicheng Liu

要約
人間-物体インタラクション(HOI)認識は、以下の2つの要因により困難である:(1)クラス間での顕著な不均衡、および(2)画像ごとに複数のラベルを必要とすること。本研究では、バックボーンアーキテクチャを変更せずに分類器を改善することで、これら2つの課題を効果的に解決できることを示す。まず、HOIの言語埋め込み(language embeddings)を用いて分類ヘッドの重みを初期化することで、クラス間の意味的相関を分類ヘッドに組み込む。その結果、特に少数ラベル(few-shot)サブセットにおいて性能が顕著に向上した。次に、長尾分布を示すデータセットにおける多ラベル学習を強化するため、新たな損失関数「LSE-Sign」を提案する。本研究で提示するシンプルながら効果的な手法により、物体検出を必要としないHOI分類が実現可能となり、従来の物体検出および人間のポーズ推定を要する最先端手法を明確な差で上回った。さらに、既存の物体検出器と分類モデルを連結することで、分類モデルをインスタンスレベルのHOI検出に転移適用した。このアプローチにより、追加の微調整なしに最先端の性能を達成した。