12일 전

노이즈가 포함된 대응 관계에서 삼분할을 활용한 다중 모달 매칭 학습

{Lin Hu, Zheng Li, Caili Guo, Zhimin Zeng, Zerun Feng}
초록

높은 레이블링 비용으로 인해 시각-텍스트 데이터셋에 일정 비율의 노이즈 있는 대응 관계를 포함시키는 것은 피할 수 없는 상황이며, 이는 교차 모달 매칭에 대한 모델의 강건성 저하를 초래한다. 최근의 일부 방법들은 데이터셋을 정제된 쌍과 노이즈 쌍으로 나누어 뛰어난 성과를 달성하고 있으나, 여전히 깊은 신경망이 노이즈 있는 대응 관계에 과적합되는 문제를 겪고 있다. 특히, 부분적으로 관련된 의미적 대응을 가진 유사한 양성 쌍이 주의 깊은 선택 없이 오류로 노이즈 쌍 그룹으로 분류되는 경우가 많아 강건한 학습에 해로운 영향을 미친다. 한편, 부분적으로 관련된 의미적 대응을 가진 유사한 음성 쌍은 일반 공간 학습에서 거리 관계를 모호하게 만들며, 성능의 안정성에도 악영향을 준다. 이러한 거시적인 데이터셋 분할 문제를 해결하기 위해, 본 논문에서는 신경망의 기억 효과와 예측 불일치를 기반으로 학습 데이터셋을 정제된 쌍, 하드 쌍, 노이즈 쌍 세 가지 하위 집합으로 분할하는 Correspondence Tri-Partition Rectifier (CTPR)를 제안한다. 이후 각 하위 집합에 대해 대응 레이블을 보정하여 시각-텍스트 쌍 간의 실제 의미적 대응을 명확히 한다. 보정된 레이블 간의 차이를 앵커와 하드 음성 쌍 사이의 적응형 마진으로 재정의하여 개선된 트리플릿 손실을 통해 공동 학습(co-teaching) 방식으로 강건한 학습을 수행한다. 제안한 방법의 효과성과 강건성을 검증하기 위해 이미지-텍스트 매칭과 동영상-텍스트 매칭을 두 가지 사례로 실험하였다. Flickr30K, MS-COCO, MSR-VTT, LSMDC 데이터셋에서 실시한 광범위한 실험 결과, 본 방법이 시각-텍스트 쌍을 의미적 대응에 따라 성공적으로 분할하고, 노이즈 데이터 학습 환경에서도 성능 향상을 달성함을 확인하였다.

노이즈가 포함된 대응 관계에서 삼분할을 활용한 다중 모달 매칭 학습 | 최신 연구 논문 | HyperAI초신경