16日前
コミック領域における画像深度の推定
Deblina Bhattacharjee, Martin Everaert, Mathieu Salzmann, Sabine Süsstrunk

要約
コミック画像の深度推定は、以下の理由から困難である:a) 画像が単眼である;b) 真の深度ラベル(ground-truth depth annotations)が存在しない;c) 異なるアートスタイルによって画像の様式が大きく異なる;d) 画像が疎でノイズが多い。そこで本研究では、既存の非教師あり画像間変換手法(off-the-shelf unsupervised image-to-image translation method)を用いて、コミック画像を自然画像に変換し、その後、注目機構を導入した単眼深度推定器(attention-guided monocular depth estimator)を用いて深度を推定する。これにより、既存の自然画像に付与された深度ラベルを活用して、深度推定器の学習が可能となる。さらに、本モデルはコミックパネル内のテキストと画像を区別する能力を学習することで、深度推定結果におけるテキスト由来のアーティファクトを低減する。実験結果から、DCMおよびeBDthequeデータセットの両方において、あらゆる評価指標で従来の最先端手法を一貫して上回ることが示された。最後に、コミック画像における深度推定の評価を目的としたデータセットを新たに提案した。本研究のプロジェクトウェブサイトは、https://github.com/IVRL/ComicsDepth にて公開されている。