17日前

Transformerを用いた二手指の物体操作の統合認識

{Seungryul Baek, Elkhan Ismayilzada, Seongyeong Lee, Jihyeon Kim, Chanwoo Kim, Hoseong Cho}
Transformerを用いた二手指の物体操作の統合認識
要約

最近、エゴセントリック動画からの手と物体の相互作用を理解する研究が注目を集めている。これまでの大多数の手法は、畳み込みニューラルネットワーク(CNN)特徴量と、長短期記憶(LSTM)またはグラフ畳み込みネットワーク(GCN)による時系列符号化を組み合わせることで、二つの手、物体、およびそれらの相互作用を統合的に理解するものであった。本論文では、物体を操作する二つの手の理解をより高精度に実現するため、Transformerベースの統合フレームワークを提案する。本フレームワークでは、二つの手、物体、およびそれらの相互作用を含む全体像を入力とし、各フレームから同時に以下の3つの情報を推定する:二つの手のポーズ、物体のポーズ、および物体の種類。その後、推定された情報と、二つの手と物体間の相互作用を符号化する接触マップ(contact map)を統合し、動画全体に基づいて手-物体相互作用によって定義される行動クラスを予測する。本手法は、H2OおよびFPHAのベンチマークデータセット上で実験を行い、最先端の精度を達成することを示した。アブレーションスタディにより、提案する各モジュールの有効性がさらに検証された。