컨텍스트 재생: 다중모달 지식 그래프 위에서의 카메라 트랩 종 분류를 링크 예측으로서 재구성

카메라 트랩은 생물다양성 모니터링 및 보존을 위한 동물 생태학에서 중요한 도구이다. 그러나 새로운 또는 미처 경험하지 못한 장소에 대해 일반화 능력이 낮다는 문제로 인해 실용적 적용이 제한된다. 카메라 트랩 이미지는 다양한 형태의 맥락 정보와 연관되어 있으며, 이러한 맥락은 서로 다른 모달리티로 존재할 수 있다. 본 연구에서는 카메라 트랩 이미지와 연결된 구조화된 맥락 정보를 활용하여, 카메라 트랩 환경에서 종 분류 작업의 분포 외 일반화 능력을 향상시키는 방안을 제시한다. 예를 들어, 야생 동물의 사진은 촬영된 시점과 장소에 대한 정보뿐 아니라, 해당 동물 종에 대한 구조화된 생물학적 지식과도 연결될 수 있다. 기존 연구에서는 이러한 맥락 정보가 자주 간과되지만, 이를 통합함으로써 데이터 부족 문제 해결 및 일반화 성능 향상과 같은 여러 잠재적 이점을 얻을 수 있다. 그러나 이러한 이질적인 맥락 정보를 시각 영역에 효과적으로 통합하는 것은 여전히 도전적인 문제이다. 이를 해결하기 위해 우리는 다중 모달 지식 그래프(Multimodal Knowledge Graph, KG)에서 링크 예측(link prediction)으로 종 분류 문제를 재정의하는 새로운 프레임워크를 제안한다. 이 프레임워크는 다양한 다중 모달 맥락 정보를 시각 인식에 원활하게 통합할 수 있도록 한다. 제안한 프레임워크를 iWildCam2020-WILDS 및 Snapshot Mountain Zebra 데이터셋에서 분포 외 종 분류에 적용한 결과, 최첨단 기법들과 경쟁 가능한 성능을 달성하였다. 또한, 본 프레임워크는 희귀 종을 인식하는 데 있어 샘플 효율성을 크게 향상시킨다.