HyperAIHyperAI

Command Palette

Search for a command to run...

MiDaS v3.1 ― ロバストなモノクローラル相対深度推定のためのモデルズー

Reiner Birkl Diana Wofk Matthias Müller

概要

モノクロラル深度推定用に、MiDaS v3.1をリリースしました。本バージョンでは、異なるエンコーダバックボーンに基づく多様な新モデルを提供しています。このリリースの動機は、コンピュータビジョン分野におけるトランスフォーマーの成功に由来しており、現在、多数の事前学習済みビジョントランスフォーマーが利用可能になっています。本研究では、最も有望なビジョントランスフォーマーを画像エンコーダとして用いることで、MiDaSアーキテクチャの深度推定精度および実行時間に与える影響を検証しました。また、画像分類タスクにおいてビジョントランスフォーマーと同等の性能を達成する最新の畳み込み型アプローチについても検討しています。前バージョンのMiDaS v3.0が単にヴァナイラ・ビジョントランスフォーマー(ViT)のみを活用していたのに対し、MiDaS v3.1ではBEiT、Swin、SwinV2、Next-ViT、LeViTをベースとした追加モデルを提供しています。これらのモデルは、性能と実行時間のトレードオフを異なる形で実現しています。最良のモデルでは深度推定精度が28%向上し、効率的なモデルは高フレームレートを要する下流タスクにも対応可能です。また、新しいバックボーンを統合する一般的なプロセスについても説明しています。本研究の概要をまとめた動画は https://youtu.be/UjaeNNFf9sE にて視聴でき、コードは https://github.com/isl-org/MiDaS で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています