15日前

3SHNet：視覚的意味・空間的自己強調を活用した画像文脈検索の性能向上

Xuri Ge, Songpei Xu, Fuhai Chen, Jie Wang, Guoxin Wang, Shan An, Joemon M. Jose

要約

本稿では、高精度・高効率・高汎化性を実現する画像-文章検索のための新規な視覚的意味-空間自己強調ネットワーク（以下、3SHNet）を提案する。3SHNetは、視覚モダリティ内における顕著な物体の識別およびその空間的位置を強調することで、視覚的意味-空間相互作用の統合を可能にするとともに、二つのモダリティ間の独立性を維持する。この統合により、セグメンテーションから得られる対応する意味情報と位置配置を物体領域と組み合わせ、視覚表現の質を向上させることができる。また、モダリティ独立性により、計算効率と汎化性能が保証される。さらに、3SHNetはセグメンテーションから得られる構造的文脈的視覚シーン情報を活用し、領域ベースの局所的またはグリッドベースのグローバルなガイドを実現することで、高精度なハイブリッドレベルの検索を達成する。MS-COCOおよびFlickr30Kのベンチマーク上で実施した広範な実験により、最近の最先端手法と比較して、提案手法3SHNetが優れた性能、高い推論効率、および優れた汎化能力を示すことが実証された。特に、より大きなMS-COCO 5Kテストセットにおいて、異なる画像表現を用いた最先端手法と比較して、rSumスコアにおいてそれぞれ16.3%、24.8%、18.3%の向上を達成しつつ、最適な検索効率を維持した。また、データセット間の汎化性能も18.6%向上した。データおよびコードは、https://github.com/XuriGe1995/3SHNet にて公開されている。