
要約
本研究では、人間の顔が話したり笑ったり動いたりするビデオを単に視聴することで顔属性を学習する自己監督フレームワークを提案します。このタスクを達成するために、同一のビデオ顔トラックから複数のフレームを共通の低次元空間に埋め込むように訓練されたネットワーク、 Facial Attributes-Net(FAb-Net)を導入します。本アプローチにより、以下の3つの貢献を行います:第一に、ネットワークが各フレームに対する信頼度/注目マスクを予測することによって、複数のソースフレームからの情報を活用できることが示されます;第二に、カリキュラム学習体制を使用することで学習された埋め込みが改善されることが実証されます;第三に、ネットワークがヘッドポーズ、顔のランドマーク、表情などの顔属性に関する情報を符号化した意味のある顔埋め込みを学習できることを示します。これは、ラベル付きデータで監督されていないにもかかわらず達成されています。これらのタスクにおいて我々の方法は既存の最先端の自己監督手法と同等かそれ以上であり、教師あり手法の性能に近づいています。