HSI-BERT: Transformer에서 유도된 양방향 인코더 표현을 이용한 고분광 이미지 분류
딥러닝 기법은 고분광 이미지 분류에 널리 활용되어 최첨단 성능을 달성하고 있다. 그러나 기존의 딥러닝 기법들은 고분광 이미지 분류에서 제한된 수용장(Receptive Field)과 유연성 부족, 일반화 어려움 등의 문제로 인해 한계에 부딪히고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 BERT(Bidirectional Encoder Representations from Transformers)의 약자인 HSI-BERT(고분광 영상-BERT)를 제안한다. 제안된 HSI-BERT는 전역적인 수용장을 갖추고 있어 픽셀 간의 공간적 거리에 관계없이 전역적인 의존성을 효과적으로 포착할 수 있다. 또한 HSI-BERT는 매우 유연하며, 입력 영역을 유연하고 동적으로 조정할 수 있다. 더불어, 공동 학습된 HSI-BERT는 재학습 없이도 다양한 형상의 영역으로부터 일반화 가능하여 뛰어난 일반화 능력을 보인다. HSI-BERT는 주로 다중 헤드 자기주의(Multi-Head Self-Attention, MHSA) 메커니즘을 기반으로 한 MHSA 레이어 위에 구축된다. 여러 헤드는 서로 다른 주의(Attention)를 학습하며, 각 헤드는 의미적 맥락 인식 표현을 인코딩하여 구별력 있는 특징을 추출한다. 모든 헤드가 인코딩한 특징이 병합되면서 공간-스펙트럼 정보를 포함하는 최종 특징이 생성되며, 이는 정확한 픽셀 단위 분류에 필수적인 정보를 제공한다. 정량적 및 정성적 실험 결과를 통해 HSI-BERT는 CNN 기반의 모든 기존 모델보다 분류 정확도와 계산 시간 측면에서 우수한 성능을 보이며, 널리 사용되는 세 가지 고분광 이미지 데이터셋에서 최첨단 성능을 달성하였다.