6ヶ月前

概要

モノクロラル深度推定用に、MiDaS v3.1をリリースしました。本バージョンでは、異なるエンコーダバックボーンに基づく多様な新モデルを提供しています。このリリースの動機は、コンピュータビジョン分野におけるトランスフォーマーの成功に由来しており、現在、多数の事前学習済みビジョントランスフォーマーが利用可能になっています。本研究では、最も有望なビジョントランスフォーマーを画像エンコーダとして用いることで、MiDaSアーキテクチャの深度推定精度および実行時間に与える影響を検証しました。また、画像分類タスクにおいてビジョントランスフォーマーと同等の性能を達成する最新の畳み込み型アプローチについても検討しています。前バージョンのMiDaS v3.0が単にヴァナイラ・ビジョントランスフォーマー（ViT）のみを活用していたのに対し、MiDaS v3.1ではBEiT、Swin、SwinV2、Next-ViT、LeViTをベースとした追加モデルを提供しています。これらのモデルは、性能と実行時間のトレードオフを異なる形で実現しています。最良のモデルでは深度推定精度が28％向上し、効率的なモデルは高フレームレートを要する下流タスクにも対応可能です。また、新しいバックボーンを統合する一般的なプロセスについても説明しています。本研究の概要をまとめた動画は https://youtu.be/UjaeNNFf9sE にて視聴でき、コードは https://github.com/isl-org/MiDaS で公開されています。

ソースPDF