8ヶ月前

コンピュータビジョン

オブジェクト検出

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Yifan Xu Weijian Xu David Cheung Zhuowen Tu

概要

本論文では、トランスフォーマーを用いた共同のエンドツーエンドの線分検出アルゴリズムを提案します。このアルゴリズムは、後処理やヒューリスティックに基づく中間処理（エッジ/接点/領域検出）を必要としません。当方の手法は「LinE segment TRansformers (LETR)」と命名され、トランスフォーマー内にトークン化されたクエリ、自己注意機構、およびエンコーダー-デコーダー戦略を統合することで、標準的なヒューリスティック設計をスキップし、エッジ要素検出と知覚的グループ化プロセスを行います。さらに、トランスフォーマーには多尺度のエンコーダー/デコーダー戦略を取り入れることで、直接端点距離損失を使用した細かい粒度の線分検出を実現しています。この損失項は、標準的なバウンディングボックス表現では適切に表現しづらい幾何学構造（線分など）の検出に特に適しています。トランスフォーマーは自己注意層を通じて段階的に線分を洗練する能力を学習します。実験結果において、WireframeおよびYorkUrbanベンチマークで最先端の性能を示すことが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コンピュータビジョン

オブジェクト検出

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Yifan Xu Weijian Xu David Cheung Zhuowen Tu

概要

本論文では、トランスフォーマーを用いた共同のエンドツーエンドの線分検出アルゴリズムを提案します。このアルゴリズムは、後処理やヒューリスティックに基づく中間処理（エッジ/接点/領域検出）を必要としません。当方の手法は「LinE segment TRansformers (LETR)」と命名され、トランスフォーマー内にトークン化されたクエリ、自己注意機構、およびエンコーダー-デコーダー戦略を統合することで、標準的なヒューリスティック設計をスキップし、エッジ要素検出と知覚的グループ化プロセスを行います。さらに、トランスフォーマーには多尺度のエンコーダー/デコーダー戦略を取り入れることで、直接端点距離損失を使用した細かい粒度の線分検出を実現しています。この損失項は、標準的なバウンディングボックス表現では適切に表現しづらい幾何学構造（線分など）の検出に特に適しています。トランスフォーマーは自己注意層を通じて段階的に線分を洗練する能力を学習します。実験結果において、WireframeおよびYorkUrbanベンチマークで最先端の性能を示すことが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

エッジなしのトランスフォーマーを使用した線分検出 | 記事 | HyperAI超神経