2달 전

SUM: Mamba를 통한 시각 주의 모델링을 위한 주목도 통합

Alireza Hosseini; Amirhossein Kazerouni; Saeed Akhavan; Michael Brudno; Babak Taati
SUM: Mamba를 통한 시각 주의 모델링을 위한 주목도 통합
초록

시각적 주의 모델링은 시각 자극을 해석하고 우선순위를 정하는 데 중요하며, 마케팅, 멀티미디어, 로봇공학 등 다양한 분야에서 중요한 역할을 합니다. 전통적인 주목도 예측 모델, 특히 컨벌루션 신경망(CNN) 또는 트랜스포머 기반 모델은 대규모 주석 데이터셋을 활용하여 뚜렷한 성공을 거두었습니다. 그러나 트랜스포머를 사용하는 현재 최신(SOTA) 모델들은 계산적으로 비용이 많이 들며, 각 이미지 유형별로 별도의 모델이 필요해 일관된 접근 방식이 부족합니다. 본 논문에서는 Mamba와 U-Net을 통합하여 다양한 이미지 유형에 대한 일관된 모델을 제공하는 새로운 접근 방식인 Mamba를 통한 주목도 통합(SUM: Saliency Unification through Mamba)을 제안합니다. SUM은 새로운 조건부 시각 상태 공간(C-VSS: Conditional Visual State Space) 블록을 사용하여 자연 풍경, 웹 페이지, 상업 이미지 등 다양한 이미지 유형에 동적으로 적응하여 다른 데이터 유형에서도 보편적으로 적용될 수 있도록 합니다. 다섯 개의 벤치마크를 통해 이루어진 우리의 포괄적인 평가 결과는 SUM이 서로 다른 시각적 특성에 원활하게 적응하며 기존 모델보다 지속적으로 우수한 성능을 보임을 입증하였습니다. 이러한 결과는 SUM이 다양한 시각 콘텐츠 유형에 걸쳐 보편적으로 적용 가능한 강력하고 다재다능한 도구로서 시각적 주의 모델링 발전에 기여할 수 있음을 나타냅니다.

SUM: Mamba를 통한 시각 주의 모델링을 위한 주목도 통합 | 최신 연구 논문 | HyperAI초신경