
要約
本稿では、大規模データセット上の画像検索を極めて効率的に行うためのコンパクトなバイナリコードを学習する新たなハッシング手法を提案する。画像の外観変化が複雑であるという課題が依然として信頼性の高い検索を困難にしている一方で、畳み込みニューラルネットワーク(CNN)が様々な視覚タスクにおいて頑健な画像表現を学習するという最近の進展を踏まえ、本研究では大規模な画像データ群に対してコンパクトかつ類似性を保つバイナリコードを学習するための新規な「深層教師付きハッシング(Deep Supervised Hashing, DSH)」手法を提案する。具体的には、類似/非類似の画像ペアを入力として用いるCNNアーキテクチャを設計し、各画像の出力が離散値(例:+1 / -1)に近づくよう促進する。この目的を達成するために、入力画像ペアから得られる教師情報(supervised information)を符号化することで出力空間の識別性を最大化する損失関数を精緻に設計するとともに、実数値出力を望ましい離散値に近づけるための正則化を同時に行う。画像検索においては、新規のクエリ画像に対してネットワークを順伝播させ、その後ネットワーク出力を量子化することでバイナリコード表現を得るという手順により、容易に符号化が可能となる。CIFAR-10およびNUS-WIDEという2つの大規模データセットを用いた広範な実験により、従来の最先端手法と比較して本手法の優れた性能が示された。