2ヶ月前

深層構造を保つ画像-テキスト埋め込みの学習

Liwei Wang; Yin Li; Svetlana Lazebnik
深層構造を保つ画像-テキスト埋め込みの学習
要約

本論文では、画像とテキストの合同埋め込みを学習する方法を提案します。この方法は、複数層の線形投影に非線形変換を組み合わせた二分岐ニューラルネットワークを使用しています。ネットワークは、クロスビューのランキング制約と、計量学習の文献から着想を得たビュー内近傍構造保存制約を組み合わせた大マージン目的関数で訓練されます。広範な実験結果から、当方針が画像からテキストへの検索およびテキストから画像への検索において精度に大幅な向上をもたらすことが示されています。当方針はFlickr30KおよびMSCOCOの画像-文データセットで新しい最先端の結果を達成し、Flickr30K Entitiesデータセットにおけるフレーズ局在化という新規タスクでも有望な成果を示しています。

深層構造を保つ画像-テキスト埋め込みの学習 | 最新論文 | HyperAI超神経