6ヶ月前

概要

コンピュータビジョンの進展に伴い、意味的画像検索や画像キャプション生成、シーン理解といったより複雑な問題を解決するためには、より高度な理解能力が求められるようになっている。特にシーン理解は、その複雑さと適切なデータ表現の不足から長年にわたり研究が進められてきた課題である。シーングラフ（Scene Graph）は、シーンの文脈をより深く理解するための最も強力なデータ表現の一つであり、シーンに登場する物体、それらの属性、および物体間の関係をエンコードするタスクを担っている。シーングラフが高度なタスクにおいてその有効性を証明したことに加え、シーングラフ生成の自動化は必然的な課題となった。さまざまなディープラーニングアーキテクチャを用いた正確なシーングラフ取得に関する多くの研究が行われてきた。これらのアーキテクチャに共通するモジュールは、入力画像内に物体を最初に検出する「物体検出モジュール」である。本研究では、シーングラフ生成タスクに、YOLOv5シリーズにおける最新の物体検出器を活用することを提案する。提案手法であるYOLOv5x6は、従来の手法と比較して、32.7の平均精度（mean average precision）という最先端（State-of-the-Art）の成果を達成した。さらに、本論文では、シーングラフ生成に用いられた文献におけるさまざまな物体検出器についてもレビューを行っている。

ソースPDF