HyperAIHyperAI

Command Palette

Search for a command to run...

Transformerを用いた二手指の物体操作の統合認識

Seungryul Baek Elkhan Ismayilzada Seongyeong Lee Jihyeon Kim Chanwoo Kim Hoseong Cho

概要

最近、エゴセントリック動画からの手と物体の相互作用を理解する研究が注目を集めている。これまでの大多数の手法は、畳み込みニューラルネットワーク(CNN)特徴量と、長短期記憶(LSTM)またはグラフ畳み込みネットワーク(GCN)による時系列符号化を組み合わせることで、二つの手、物体、およびそれらの相互作用を統合的に理解するものであった。本論文では、物体を操作する二つの手の理解をより高精度に実現するため、Transformerベースの統合フレームワークを提案する。本フレームワークでは、二つの手、物体、およびそれらの相互作用を含む全体像を入力とし、各フレームから同時に以下の3つの情報を推定する:二つの手のポーズ、物体のポーズ、および物体の種類。その後、推定された情報と、二つの手と物体間の相互作用を符号化する接触マップ(contact map)を統合し、動画全体に基づいて手-物体相互作用によって定義される行動クラスを予測する。本手法は、H2OおよびFPHAのベンチマークデータセット上で実験を行い、最先端の精度を達成することを示した。アブレーションスタディにより、提案する各モジュールの有効性がさらに検証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています