8日前
深層マルチタスク学習を用いた手の画像理解
Xiong Zhang, Hongsheng Huang, Jianchao Tan, Hongmin Xu, Cheng Yang, Guozhu Peng, Lei Wang, Ji Liu

要約
画像や動画などのマルチメディア資料から手の情報を分析・理解することは、多くの実世界応用において重要であり、研究コミュニティにおいても活発な研究テーマの一つである。単一の画像から手の情報を復元する研究は多数存在するが、これらの手法は通常、手マスクのセグメンテーション、2D/3D手のポーズ推定、または手メッシュの再構成といった単一のタスクに限定されており、困難な状況下では十分な性能を発揮できない。これらのタスクの性能をさらに向上させるために、本研究では、複数のタスク間の関係性を統合的に考慮することで、単一のRGB画像から手オブジェクトの包括的な情報を抽出することを目的とした新しい「手画像理解(Hand Image Understanding, HIU)」フレームワークを提案する。この目的を達成するため、2Dヒートマップの推定、セグメンテーションマスクの学習、中間的な3D情報符号化の生成を統合的に実行する、段階的マルチタスク学習(Cascaded Multi-Task Learning, MTL)ベースネットワークを設計し、粗いから細かい学習パラダイム(coarse-to-fine learning paradigm)と自己教師学習戦略(self-supervised learning strategy)を組み合わせた。定性的な実験結果から、本手法が困難な状況下においても合理的なメッシュ表現を回復可能であることが示された。定量的な評価では、広く用いられる複数のデータセットにおいて、さまざまな評価指標において、最先端手法を顕著に上回る性能を達成した。