
顔解析とは、人間の顔を目、鼻、髪などの主要な顔領域に意味的に分割することを指します。これは、顔編集、顔入れ替え、メイクアップなど、多くの高度なアプリケーションの前提条件となります。これらのアプリケーションでは、眼鏡、帽子、ピアス、ネックレスなどのクラスのセグメンテーションマスクが必要となることがよくあります。これらの頻度が低いクラスは長尾クラスと呼ばれ、頻度が高いヘッドクラスによって影が薄くなっています。既存の方法、特にCNNベースの方法は、学習中にヘッドクラスに支配されがちで、結果として長尾クラスの表現が不十分になる傾向があります。以前の研究では、長尾クラスのセグメンテーション性能が低いという問題がほとんど見過ごされてきました。この問題に対処するため、我々はSegFaceを提案します。これは軽量なトランスフォーマーに基づいたモデルを使用し、学習可能なクラス固有トークンを利用した単純かつ効率的な手法です。トランスフォーマー解码器はクラス固有トークンを活用することで、各トークンが対応するクラスに焦点を当てることが可能となり、各クラスの独立したモデリングを実現します。提案された手法により長尾クラスの性能が向上し、全体的な性能も向上します。我々の知る限りでは、SegFaceは顔解析にトランスフォーマーモデルを使用した最初の研究です。さらに、本手法は低計算リソースを持つエッジデバイスにも適応でき、95.96 FPS(フレーム毎秒)を達成しています。我々は広範囲な実験を行い、SegFaceが以前の最先端モデルよりも大幅に優れていることを示しました。CelebAMask-HQデータセットでの平均F1スコアは88.96(+2.82)、LaPaデータセットでは93.03(+0.65)となっています。コード: https://github.com/Kartik-3004/SegFace注:「解码器」は一般的には「デコーダ」または「デコーダー」と訳されることが多いですが、「解码器」を使用しました。「デコーダ」または「デコーダー」を使用することも可能です。修正版:トランスフォーマーデコーダはクラス固有トークンを活用することで、各トークンが対応するクラスに焦点を当てることが可能となり、各クラスの独立したモデリングを実現します。