17일 전
다중모달 분류기의 편향 제거: 기능 엔트로피를 최대화함으로써의 정규화
Itai Gat, Idan Schwartz, Alexander Schwing, Tamir Hazan

초록
최근의 많은 데이터셋은 다양한 데이터 모달리티를 포함하고 있으며, 예를 들어 시각적 질의응답(VQA)에서는 이미지, 질의, 응답 데이터가 포함된다. 이러한 다중 모달 데이터셋에서 깊은 신경망 분류기를 학습할 때, 각 모달리티는 서로 다른 스케일에서 활용되며, 일부 모달리티가 다른 것보다 분류 결과에 더 쉽게 기여할 수 있다. 이는 분류기가 본질적으로 일부 모달리티에 편향되어 있음을 의미하므로, 최적의 성능을 내지 못한다. 이러한 단점을 완화하기 위해, 기능 엔트로피(functional entropy)를 기반으로 한 새로운 정규화 항을 제안한다. 직관적으로 이 항은 각 모달리티가 분류 결과에 기여하는 정도를 균형 있게 만들도록 유도한다. 그러나 기능 엔트로피를 활용한 정규화는 도전적인 과제이다. 이를 해결하기 위해 로그-소보레프 부등식(log-Sobolev inequality)을 기반으로 한 방법을 개발하였으며, 이는 기능 엔트로피를 기능-피셔정보(functional-Fisher-information)로 상한을 제시한다. 직관적으로 이는 각 모달리티가 기여하는 정보의 양을 최대화한다. 제안한 방법은 VQA-CPv2와 SocialIQ와 같은 두 가지 도전적인 다중 모달 데이터셋에서 최신 기술(SOTA) 성능을 달성하면서도 모달리티를 더 균형 있게 활용함을 입증하였다. 또한, 색상 MNIST에서 제안 방법의 효과성을 실험적으로 검증하였다.