
我々はオープンボキャブラリ物体検出の進歩を目指しています。これは、任意のテキスト入力で説明された物体を検出する技術です。この分野における基本的な課題は、訓練データの入手可能性です。既存の物体検出データセットに含まれるクラス数をさらに増やすことはコストがかかります。この課題を克服するために、我々はViLD(Vision and Language knowledge Distillation)という訓練方法を提案します。本手法では、事前学習済みのオープンボキャブラリ画像分類モデル(教師モデル)から二段階検出器(生徒モデル)へ知識を蒸留します。具体的には、教師モデルを使用してカテゴリーテキストと物体提案の画像領域をエンコードします。その後、検出されたボックスの領域埋め込みが教師によって推論されたテキスト埋め込みと画像埋め込みと一致するように生徒検出器を訓練します。我々はLVISにおいてすべての希少なカテゴリを新しいカテゴリとして除外し、訓練中に見られなかったこれらのカテゴリに対して評価を行いました。ViLDはResNet-50バックボーンを使用して16.1マスクAP$_r$を得ましたが、これは監督学習による対応手法よりも3.8高い結果です。より強力な教師モデルALIGNを使用して訓練した場合、ViLDは26.3 AP$_r$を達成しました。また、本モデルはファインチューニングなしで他のデータセットにも直接転移学習が可能で、PASCAL VOCでは72.2 AP$_{50}$、COCOでは36.6 AP、Objects365では11.8 APを得ました。COCOにおいては、ViLDは新規APで4.8ポイント上回り、全体的なAPでも11.4ポイント上回るという従来の最先端手法に対する優れた性能を示しました。コードとデモはhttps://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild で公開されています。