6ヶ月前

コンピュータビジョン

オーディオ

コンピュータビジョン

Hila Chefer Idan Schwartz Lior Wolf

概要

視覚分類モデルがしばしば画像の背景に依存し、前方物体（フォアグラウンド）を軽視する傾向があることが観察されており、これは分布の変化に対するモデルのロバスト性を損なう要因となっている。この課題を軽減するために、モデルの関連性信号（relevancy signal）を監視し、その信号を操作することでモデルの注目をフォアグラウンド物体に集中させる手法を提案する。このアプローチは微調整（fine-tuning）ステップとして実施され、画像とその対応するフォアグラウンドマスクのペアからなる比較的小規模なサンプル群を用いる。具体的には、モデルの関連性マップに対して以下の三点を促進する：（i）背景領域に対して低い関連性を割り当てる、（ii）フォアグラウンドから可能な限り多くの情報を抽出する、（iii）分類決定に対して高い信頼度をもたらす。この手法をビジョントランスフォーマー（Vision Transformer, ViT）モデルに適用したところ、ドメインシフトに対するロバスト性が顕著に向上することが確認された。さらに、フォアグラウンドマスクは、ViTモデル自身の自己教師付き変種（self-supervised variant）から自動的に取得可能であり、追加の教師信号は不要である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

オーディオ

コンピュータビジョン

Hila Chefer Idan Schwartz Lior Wolf

概要

視覚分類モデルがしばしば画像の背景に依存し、前方物体（フォアグラウンド）を軽視する傾向があることが観察されており、これは分布の変化に対するモデルのロバスト性を損なう要因となっている。この課題を軽減するために、モデルの関連性信号（relevancy signal）を監視し、その信号を操作することでモデルの注目をフォアグラウンド物体に集中させる手法を提案する。このアプローチは微調整（fine-tuning）ステップとして実施され、画像とその対応するフォアグラウンドマスクのペアからなる比較的小規模なサンプル群を用いる。具体的には、モデルの関連性マップに対して以下の三点を促進する：（i）背景領域に対して低い関連性を割り当てる、（ii）フォアグラウンドから可能な限り多くの情報を抽出する、（iii）分類決定に対して高い信頼度をもたらす。この手法をビジョントランスフォーマー（Vision Transformer, ViT）モデルに適用したところ、ドメインシフトに対するロバスト性が顕著に向上することが確認された。さらに、フォアグラウンドマスクは、ViTモデル自身の自己教師付き変種（self-supervised variant）から自動的に取得可能であり、追加の教師信号は不要である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています