2달 전

AUFormer: Vision Transformers는 파라미터 효율적인 얼굴 행동 단위 검출기입니다.

Yuan, Kaishen ; Yu, Zitong ; Liu, Xin ; Xie, Weicheng ; Yue, Huanjing ; Yang, Jingyu
AUFormer: Vision Transformers는 파라미터 효율적인 얼굴 행동 단위 검출기입니다.
초록

얼굴 행동 단위(Facial Action Units, AU)는 감성 컴퓨팅 분야에서 중요한 개념이며, AU 검출은 항상 연구의 핫 이슈였습니다. 기존 방법들은 희소한 AU 주석 데이터셋에 많은 학습 가능한 매개변수를 사용하거나 대규모 추가 관련 데이터에 과도하게 의존함으로써 과적합 문제를 겪어왔습니다. 매개변수 효율적인 전이 학습(Parameter-Efficient Transfer Learning, PETL)은 이러한 도전을 해결하기 위한 유망한 패러다임을 제공하지만, 기존의 PETL 방법들은 AU 특성을 고려하지 않았습니다. 따라서 우리는 혁신적으로 PETL 패러다임을 AU 검출에 적용하여 AUFormer를 소개하고 새로운 지식 혼합 전문가(Mixture-of-Knowledge Expert, MoKE) 협업 메커니즘을 제안합니다.각 MoKE는 특정 AU에 대해 최소한의 학습 가능한 매개변수로 개인화된 다중 스케일 및 상관 관계 지식을 통합합니다. 그런 다음 MoKE는 전문가 그룹 내의 다른 MoKE들과 협력하여 집계 정보를 얻고 이를 동결된 비전 트랜스포머(Vision Transformer, ViT)에 주입하여 매개변수 효율적인 AU 검출을 실현합니다. 또한, 우리는 마진 절단 난이도 인지 가중치 불대칭 손실(Margin-truncated Difficulty-aware Weighted Asymmetric Loss, MDWA-Loss)을 설계하였습니다. 이 손실 함수는 모델이 활성화된 AU에 더 집중하도록 유도하며, 비활성화된 AU의 난이도를 구분하고 잠재적으로 잘못 라벨링된 샘플들을 배제할 수 있습니다.다양한 측면에서 수행된 광범위한 실험들(영역 내, 영역 간, 데이터 효율성 및 미세 표현 영역 포함)은 AUFormer가 추가 관련 데이터에 의존하지 않고 최신 성능과 강건한 일반화 능력을 보여줍니다. AUFormer의 코드는 https://github.com/yuankaishen2001/AUFormer에서 확인할 수 있습니다.

AUFormer: Vision Transformers는 파라미터 효율적인 얼굴 행동 단위 검출기입니다. | 최신 연구 논문 | HyperAI초신경