15日前

自己教師付き動画中心型Transformerを用いた動画顔クラスタリング

Yujiang Wang, Mingzhi Dong, Jie Shen, Yiming Luo, Yiming Lin, Pingchuan Ma, Stavros Petridis, Maja Pantic
自己教師付き動画中心型Transformerを用いた動画顔クラスタリング
要約

本稿では、動画中心型Transformerを用いた動画内顔認識クラスタリングのための新たな手法を提案する。従来の手法は、フレームレベルの表現を対比学習(contrastive learning)により学習し、時間軸方向に平均プーリング(average pooling)を適用して特徴を統合する方法を採用していた。しかし、このアプローチでは動画の複雑な時間的変動特性を十分に捉えることが難しい。さらに、近年の動画ベース対比学習の進展にもかかわらず、動画顔認識クラスタリングタスクに有益な自己教師型クラスタリングに適した表現を学習する試みは依然として稀である。これらの課題を克服するため、本研究では、顔の時間的変化特性をより適切に反映できる動画レベルの表現を直接学習可能なTransformerを採用するとともに、Transformerモデルを学習するための動画中心型自己教師型フレームワークを提案する。また、顔認識クラスタリングに関する研究においてまだ未解明であった、エゴセントリック動画(egocentric videos)における顔認識クラスタリングという急速に発展しつつある分野にも着目し、初めての大規模なエゴセントリック動画顔認識クラスタリングデータセット「EasyCom-Clustering」を構築し、公開する。提案手法の有効性を、広く用いられているBig Bang Theory(BBT)データセットおよび新しく提案されたEasyCom-Clusteringデータセットの両方で評価した結果、本研究で提案する動画中心型Transformerは、いずれのベンチマークにおいても従来の最先端手法を上回る性能を達成し、顔動画に対する自己注意機構(self-attentive)による深い理解を示した。

自己教師付き動画中心型Transformerを用いた動画顔クラスタリング | 最新論文 | HyperAI超神経