2달 전

BiCro: 다중 모드 데이터를 위한 양방향 교차 모달 유사성 일관성을 통한 노이즈 대응 수정

Yang, Shuo ; Xu, Zhaopan ; Wang, Kai ; You, Yang ; Yao, Hongxun ; Liu, Tongliang ; Xu, Min
BiCro: 다중 모드 데이터를 위한 양방향 교차 모달 유사성 일관성을 통한 노이즈 대응 수정
초록

다중모달 학습에서 가장 기본적인 기술 중 하나인 크로스모달 매칭은 다양한 감각 모달을 공유된 특성 공간으로 투영하는 것을 목표로 합니다. 이를 달성하기 위해서는 모델 훈련에 대규모이고 정확히 일치된 데이터 쌍이 필요합니다. 그러나 단일모달 데이터셋과 달리, 다중모달 데이터셋은 매우 정밀하게 수집하고 주석화하기가 어렵습니다. 이에 대한 대안으로, 인터넷에서 수집한 동시 발생 데이터 쌍(예: 이미지-텍스트 쌍)이 해당 분야에서 널리 활용되고 있습니다. 불행히도 저렴하게 수집된 데이터셋은 피할 수 없이 많은 불일치된 데이터 쌍을 포함하며, 이는 모델의 성능에 해롭다는 것이 증명되었습니다. 이를 해결하기 위해, 우리는 기존의 크로스모달 매칭 모델에 쉽게 통합될 수 있으며 노이즈 데이터에 대한 견고성을 개선하는 일반적인 프레임워크인 BiCro (양방향 크로스모달 유사도 일관성)를 제안합니다. 구체적으로, BiCro는 노이즈 데이터 쌍의 실제 일치 정도를 반영하는 부드러운 라벨을 추정하는 것을 목표로 합니다. BiCro의 기본 아이디어는 다음과 같은 예시에서 영감을 받았습니다 -- 이미지-텍스트 매칭을 예로 들면, 유사한 이미지는 유사한 텍스트 설명을 가져야 하며 그 반대도 마찬가지입니다. 그런 다음 이러한 두 가지 유사도의 일관성이 부드러운 라벨로 재구성되어 매칭 모델을 훈련시키는데 사용됩니다. 세 가지 인기 있는 크로스모달 매칭 데이터셋에서 수행한 실험은 우리의 방법이 다양한 매칭 모델의 노이즈 견고성을 크게 개선하며, 명백한 차이로 최신 연구 결과를 능가함을 보여주었습니다.

BiCro: 다중 모드 데이터를 위한 양방향 교차 모달 유사성 일관성을 통한 노이즈 대응 수정 | 최신 연구 논문 | HyperAI초신경