2달 전
LILE: Look In-Depth before Looking Elsewhere -- 히스토패슬로지 아카이브에서의 크로스 모달 정보 검색을 위한 트랜스포머를 사용한 이중 주의 네트워크
Danial Maleki; H.R Tizhoosh

초록
최근 몇 년 동안 많은 응용 분야에서 사용 가능한 데이터의 양이 급격히 증가했습니다. 또한, 여러 모달을 별도로 사용하던 시대는 사실상 끝났습니다. 따라서, 다양한 모달 간의 양방향 크로스 모달 데이터 검색을 지원할 수 있는 기능은 많은 연구 영역과 학문 분야에서 필수적인 요구사항이 되었습니다. 특히 의료 분야에서는 다양한 유형의 이미지와 보고서, 그리고 분자 데이터 등 다수의 데이터 유형이 존재하기 때문에 이는 더욱 중요합니다. 대부분의 현대 연구에서는 크로스 어텐션(cross attention)을 적용하여 한 모달에 대한 다른 모달의 중요한 요소들을 강조하고 이를 일치시키려고 합니다. 그러나 이러한 접근 방식은 각 모달 내에서의 중요성에 관계없이 모든 특징을 동등하게 고려하는 경향이 있습니다. 본 연구에서는 이러한 내부 표현을 크로스 어텐션 모듈에 제공하기 위해 자기 어텐션(self-attention)을 추가 손실 항으로 제안합니다. 이 작업은 새로운 손실 항을 도입한 혁신적인 아키텍처를 제시하여 이미지와 텍스트를 공동 잠재 공간(joint latent space)에서 표현하는 데 도움을 주고자 합니다. MS-COCO와 ARCH라는 두 벤치마크 데이터셋에서 수행된 실험 결과는 제안된 방법론의 효과성을 입증하였습니다.