HyperAIHyperAI

Command Palette

Search for a command to run...

3SHNet:視覚的意味・空間的自己強調を活用した画像文脈検索の性能向上

Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose

概要

本稿では、高精度・高効率・高汎化性を実現する画像-文章検索のための新規な視覚的意味-空間自己強調ネットワーク(以下、3SHNet)を提案する。3SHNetは、視覚モダリティ内における顕著な物体の識別およびその空間的位置を強調することで、視覚的意味-空間相互作用の統合を可能にするとともに、二つのモダリティ間の独立性を維持する。この統合により、セグメンテーションから得られる対応する意味情報と位置配置を物体領域と組み合わせ、視覚表現の質を向上させることができる。また、モダリティ独立性により、計算効率と汎化性能が保証される。さらに、3SHNetはセグメンテーションから得られる構造的文脈的視覚シーン情報を活用し、領域ベースの局所的またはグリッドベースのグローバルなガイドを実現することで、高精度なハイブリッドレベルの検索を達成する。MS-COCOおよびFlickr30Kのベンチマーク上で実施した広範な実験により、最近の最先端手法と比較して、提案手法3SHNetが優れた性能、高い推論効率、および優れた汎化能力を示すことが実証された。特に、より大きなMS-COCO 5Kテストセットにおいて、異なる画像表現を用いた最先端手法と比較して、rSumスコアにおいてそれぞれ16.3%、24.8%、18.3%の向上を達成しつつ、最適な検索効率を維持した。また、データセット間の汎化性能も18.6%向上した。データおよびコードは、https://github.com/XuriGe1995/3SHNet にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています