인과적 주의
인과 주의(CATT)는 특히 시각-언어 작업에서 인과 추론을 통합하여 모델 해석 가능성과 성능을 개선하는 혁신적인 주의 메커니즘입니다. 이 메커니즘은 2021년 호주의 난양기술대학교와 모나쉬대학교의 연구자들에 의해 제안되었습니다.시각-언어 과제를 위한 인과적 주의".
인과적 주의의 핵심 아이디어는 인과 추론에서 "프런트도어 기준"을 사용하여 훈련 데이터의 거짓 상관관계 문제를 해결하는 것입니다. 기존의 자기 주의 메커니즘에서는 감독이 부족하기 때문에 주의 가중치가 데이터 편향의 영향을 받을 수 있으며, 이로 인해 추론 중에 모델이 오도될 수 있습니다. 예를 들어, 이미지 설명 작업에서 학습 데이터에 "말을 타는 사람" 장면이 "마차를 운전하는 사람" 장면보다 많을 경우, 모델은 실수로 "승마"라는 동작을 "사람"과 "말"과 연관시키고 "마차"의 존재를 무시할 수 있습니다.
이 문제를 해결하기 위해 연구자들은 다음과 같은 방법으로 인과적 효과를 식별하고 강화하는 인과적 주의 메커니즘을 제안했습니다.
- 샘플 내 주의(IS-ATT): 다른 샘플의 간섭을 피하기 위해 단일 샘플 내에서 주의 계산을 수행합니다.
- 교차 샘플 주의(CS-ATT): 다른 샘플의 정보를 현재 샘플의 주의 계산에 도입하여 인과적 개입의 효과를 모방합니다.
이 메커니즘은 기존의 셀프 어텐션 메커니즘(예: Transformer의 어텐션 모듈)을 대체하는 플러그형 모듈로 사용될 수 있습니다. 실험 결과에 따르면 인과적 주의는 이미지 설명 및 시각적 질의응답과 같은 작업에서 모델의 성능을 크게 향상시킬 수 있는 것으로 나타났습니다.