11일 전

노이즈 있는 대응관계를 가진 다중모달 검색을 위한 일관성 정제 및 채굴

{Xi Peng, Jiancheng Lv, Peng Hu, Yunfan Li, Mouxing Yang, Xinran Ma}
초록

기존의 다중모달 검색(CMR) 기법의 성공은 애초에 애너테이션된 다중모달 대응 관계가 완벽하다는 가정에 크게 의존한다. 그러나 실질적으로 데이터 수집 또는 애너테이션 과정에서 일부 쌍의 대응 관계는 불가피하게 오염될 수 있으며, 이로 인해所谓的 '노이즈 대응(NC)' 문제라는 현상이 발생한다. NC의 영향을 완화하기 위해, 본 연구에서는 대응 관계와 일관성 사이의 차이를 탐지하고 활용함으로써 성능을 향상시키는 새로운 방법인 일관성 정제 및 탐색(Consistency REfining And Mining, CREAM)을 제안한다. 구체적으로, 진정 긍정 및 진정 부정 쌍에서는 대응 관계와 일관성이 일치하지만, 거짓 긍정 및 거짓 부정 쌍에서는 이 둘 사이에 차이가 존재한다. 이러한 관찰을 기반으로 CREAM은 긍정 쌍의 대응 관계를 탐지하고 수정하기 위한 협업 학습 파라다임을 도입하며, 부정 쌍의 일관성을 탐색하고 활용하기 위한 음성 샘플링 기법을 활용한다. CREAM의 일관성 정제 및 탐색 전략 덕분에 거짓 긍정에 대한 과적합을 방지할 수 있으며, 거짓 부정에 내재된 일관성을 효과적으로 활용할 수 있어, 강건한 CMR 방법을 구현할 수 있다. 다양한 실험을 통해 본 방법이 Flickr30K, MS-COCO, Conceptual Captions 등 세 가지 이미지-텍스트 벤치마크에서 뛰어난 성능을 입증하였다. 또한, 본 방법을 그래프 매칭(task)에 적용한 결과, 미세한 수준의 NC 문제에 대해서도 강건함을 입증하였다. 코드는 https://github.com/XLearning-SCU/2024-TIP-CREAM 에 공개되어 있다.

노이즈 있는 대응관계를 가진 다중모달 검색을 위한 일관성 정제 및 채굴 | 최신 연구 논문 | HyperAI초신경