15日前

画像-テキストマッチングのための視覚的意味推論

Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li, Yun Fu
画像-テキストマッチングのための視覚的意味推論
要約

画像とテキストのマッチングは、視覚と言語の領域を橋渡しする注目される研究テーマである。この課題は、画像の現在の表現が対応するテキストキャプションに見られるようなグローバルな意味的コンセプトを欠いているため、依然として困難な課題である。この問題に対処するために、シーンの主要なオブジェクトおよび意味的コンセプトを捉えることができる視覚表現を生成する、シンプルかつ解釈可能な推論モデルを提案する。具体的には、まず画像領域間の関係性を構築し、グラフ畳み込みネットワーク(Graph Convolutional Networks)を用いて意味的関係性を持つ特徴を生成する。次に、これらの関係性強化された特徴に対して、ゲート機構とメモリ機構を活用してグローバルな意味的推論を実施し、特徴的な情報を選択しながら、シーン全体の表現を段階的に生成する。実験の結果、本手法はMS-COCOおよびFlickr30Kデータセットにおける画像-テキストマッチングにおいて、新たな最先端の性能を達成した。MS-COCOでは、画像検索において現在の最良手法よりも相対的に6.8%、キャプション検索において4.8%の向上を達成(1Kテストセットを使用したRecall@1)。Flickr30Kでは、画像検索で相対的に12.6%、キャプション検索で5.8%の向上(Recall@1)を実現した。本研究のコードは、https://github.com/KunpengLi1994/VSRN にて公開されている。

画像-テキストマッチングのための視覚的意味推論 | 最新論文 | HyperAI超神経