2ヶ月前

AUFormer: Vision Transformers はパラメータ効率の高い顔の動作単位検出器です。

Yuan, Kaishen ; Yu, Zitong ; Liu, Xin ; Xie, Weicheng ; Yue, Huanjing ; Yang, Jingyu
AUFormer: Vision Transformers はパラメータ効率の高い顔の動作単位検出器です。
要約

Facial Action Units (AU) は感情計算の分野において重要な概念であり、AU検出は常に研究のホットトピックとなっています。既存の方法では、学習可能なパラメータ数が多すぎることや、AUアノテーション付きデータセットが不足していること、または大量の関連データに過度に依存することが問題となっています。Parameter-Efficient Transfer Learning (PETL) はこれらの課題を解決する有望な枠組みを提供していますが、既存のPETL手法にはAU特性への設計が欠けています。そこで、私たちは革新的にPETL枠組みをAU検出に適用し、AUFormer を導入し、新しい Mixture-of-Knowledge Expert (MoKE) 協調機構を提案します。特定のAUに対応する最小限の学習可能なパラメータを持つ個々のMoKEはまず、パーソナライズされたマルチスケールおよび相関知識を統合します。その後、専門家グループ内の他のMoKEと協調して集約情報を取得し、凍結したビジョントランスフォーマー(Vision Transformer, ViT)に注入することで、パラメータ効率的なAU検出を実現します。さらに、私たちは Margin-truncated Difficulty-aware Weighted Asymmetric Loss (MDWA-Loss) を設計しました。この損失関数はモデルが活性化したAUにより注目することを促し、非活性化したAUの難易度を区別し、潜在的に誤ラベル付けされたサンプルを除外することができます。ドメイン内、クロスドメイン、データ効率性、そして微表情ドメインなど様々な観点からの広範な実験により、AUFormer の最先端性能と堅牢な汎化能力が示されています。これは追加の関連データに依存せずに達成されています。AUFormer のコードは https://github.com/yuankaishen2001/AUFormer で入手可能です。

AUFormer: Vision Transformers はパラメータ効率の高い顔の動作単位検出器です。 | 最新論文 | HyperAI超神経