Raviver le contexte : la classification des espèces à l’aide de pièges photographiques comme une tâche de prédiction de liens sur des graphes de connaissances multimodaux

Les pièges photographiques constituent des outils essentiels en écologie animale pour le suivi de la biodiversité et la conservation. Toutefois, leur application pratique est limitée par des problèmes tels que la faible généralisation à de nouveaux lieux inconnus. Les images sont généralement associées à divers types de contexte, pouvant s’exprimer sous différentes modalités. Dans ce travail, nous exploitons le contexte structuré lié aux images de pièges photographiques afin d’améliorer la généralisation hors distribution pour les tâches de classification des espèces dans les pièges photographiques. Par exemple, une image d’un animal sauvage peut être associée à des informations sur l’heure et le lieu de prise de vue, ainsi qu’à des connaissances biologiques structurées concernant l’espèce animale. Bien que souvent négligé par les études existantes, l’intégration de tel contexte offre plusieurs avantages potentiels pour une meilleure compréhension des images, notamment la mitigation de la rareté des données et l’amélioration de la généralisation. Toutefois, intégrer efficacement ce type de contexte hétérogène dans le domaine visuel représente un défi majeur. Pour relever ce défi, nous proposons un cadre novateur qui reformule la classification des espèces comme une tâche de prédiction de liens dans un graphe de connaissances multimodal (KG). Ce cadre permet une intégration fluide de divers contextes multimodaux pour la reconnaissance visuelle. Nous appliquons ce cadre à la classification d’espèces hors distribution sur les jeux de données iWildCam2020-WILDS et Snapshot Mountain Zebra, obtenant des performances compétitives par rapport aux approches de pointe. En outre, notre cadre améliore l’efficacité échantillonnage pour la reconnaissance des espèces sous-représentées.