17일 전

MDS-ViTNet: 시각 변환기(Vision Transformer)를 활용한 눈동자 추적을 위한 색인 예측 개선

Polezhaev Ignat, Goncharenko Igor, Iurina Natalya
MDS-ViTNet: 시각 변환기(Vision Transformer)를 활용한 눈동자 추적을 위한 색인 예측 개선
초록

본 논문에서는 시각적 주목도 예측 또는 눈동자 추적을 향상시키기 위해 새로운 방법론인 MDS-ViTNet(Multi Decoder Saliency by Vision Transformer Network)을 제안한다. 이 접근법은 마케팅, 의학, 로보틱스, 소매 산업 등 다양한 분야에서 큰 잠재력을 지닌다. 기존의 ImageNet 기반 아키텍처를 넘어서, 비전 트랜스포머(Vision Transformer)를 활용한 네트워크 아키텍처를 제안한다. 제안하는 프레임워크는 인코더-디코더 구조를 채택하며, 인코더는 스윈 트랜스포머(Swin Transformer)를 사용하여 가장 중요한 특징을 효율적으로 임베딩한다. 이 과정에서는 전이학습(Transfer Learning) 기법을 적용하여 비전 트랜스포머의 계층을 인코더 트랜스포머로 변환하고, 이를 CNN 디코더에 원활하게 통합한다. 이러한 방식은 원본 입력 이미지의 정보 손실을 최소화한다. 디코더는 다중 디코딩 기법을 활용하여 두 개의 독립적인 주목도 맵을 생성하며, 이후 추가적인 CNN 모델을 통해 두 맵을 하나의 출력으로 결합한다. 훈련된 MDS-ViTNet 모델은 여러 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 향후 연구 협력을 촉진하기 위해, 본 연구의 코드, 모델 및 데이터셋을 공개할 예정이다.