
都市シーンにおける歩行者の正確な検出は、自動運転や映像監視などの現実的な応用において重要である。しかし、人間のように見える物体がしばしば誤検出を引き起こし、小型または重度に隠蔽された歩行者はその特異な外観により容易に見逃されてしまう。これらの課題に対処するため、物体領域のみに依存する手法では不十分であり、より明示的かつ意味的な文脈をいかに効果的に活用するかが重要な課題となる。一方、従来の文脈認識型歩行者検出器は、視覚的ヒントに基づいて潜在的な文脈を学習するものや、明示的かつ意味的な文脈を得るために手作業による豊富なラベル付けを必要とするものがある。そこで本研究では、追加のラベル付けを一切不要として、視覚言語モデルを活用した意味的自己教師付き学習により、明示的な意味的文脈をモデル化する新しいアプローチ、VLPD(Vision-Language semantic self-supervision for context-aware Pedestrian Detection)を提案する。まず、視覚言語モデルによって自己生成された意味クラスの明示的ラベルを用いて、完全教師あり歩行者検出と文脈セグメンテーションを同時に学習する自己教師付き視覚言語意味セグメンテーション(VLS)手法を提案する。さらに、VLSによって得られたより明示的かつ意味的な文脈を基に、プロトタイプに基づく意味的対比学習(PSC)を用いて、歩行者と他のクラスの区別をより効果的に行う自己教師付き学習手法を提案する。代表的なベンチマーク上での広範な実験により、本手法VLPDが従来の最先端手法を上回る性能を達成することが示された。特に、小型歩行者や重度の隠蔽状態といった困難な条件下でも顕著な優位性が確認された。コードは https://github.com/lmy98129/VLPD にて公開されている。