17日前
コンテキストの復活:マルチモーダル知識グラフ上のリンク予測としてのカメラトラップ種分類
Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng-Hao Tu, Hong-You Chen, Tanya Berger-Wolf, Charles Stewart, Song Gao, Wei-Lun Chao, Yu Su

要約
カメラトラップは、生物多様性のモニタリングおよび保全を目的とした動物生態学における重要なツールである。しかし、新しい未確認の場所への汎化性能が低いといった課題により、実用的な応用が制限されている。カメラトラップ画像は、多様な文脈情報と関連付けられることが多く、これらの文脈は異なるモダリティ(形式)で存在する。本研究では、カメラトラップ画像に関連する構造化された文脈を活用することで、種分類タスクにおける分布外(out-of-distribution)の汎化性能を向上させることを目指す。たとえば、野生動物の画像は撮影時刻や撮影場所といった情報、およびその動物種に関する構造化された生物学的知識と関連付けられる。このような文脈は従来の研究においてしばしば無視されがちであるが、画像理解の質を向上させる上で、データ不足の緩和や汎化性能の強化といった複数の利点をもたらす可能性がある。しかしながら、こうした異種の文脈を視覚領域に効果的に統合することは、困難な課題である。これを解決するため、本研究では、マルチモーダル知識グラフ(KG)におけるリンク予測として種分類を定式化する新しいフレームワークを提案する。このフレームワークにより、多様なマルチモーダルな文脈を視覚認識にシームレスに統合することが可能となる。本フレームワークは、iWildCam2020-WILDSおよびSnapshot Mountain Zebraデータセットを対象として分布外種分類に適用し、最先端の手法と比較して競争力ある性能を達成した。さらに、本フレームワークは、代表度が低い種の識別においてもサンプル効率を著しく向上させることを示した。