HyperAIHyperAI

Command Palette

Search for a command to run...

テキストクエリ駆動型マスクTransformerによるドメイン一般化セグメンテーション

Byeonghyun Pak Byeongju Woo Sunghwan Kim Dae-hwan Kim Hoseong Kim

概要

本稿では、視覚言語モデルのテキスト埋め込みから得られるドメイン不変な意味知識を活用することで、ドメイン一般化セマンティックセグメンテーション(DGSS)に取り組む手法を提案する。我々は、トランスフォーマーに基づくセグメンテーションフレームワーク内において、テキスト埋め込みをオブジェクトクエリとして用いる(テキストオブジェクトクエリ)。これらのクエリは、DGSSにおけるピクセルのグループ化に用いるドメイン不変な基盤と見なされる。テキストオブジェクトクエリの力を最大限に引き出すために、新たなフレームワークである「テキストクエリ駆動型マスクトランスフォーマー(tqdm)」を導入する。tqdmの目的は(1)ドメイン不変な意味情報を最大限に符号化するテキストオブジェクトクエリを生成すること、および(2)密な視覚特徴の意味的明確性を向上させることである。さらに、視覚的特徴とテキスト的特徴の間の整合性を高めるために、3種類の正則化損失関数を提案する。本手法を用いることで、モデルは注目クラスの本質的な意味情報を理解でき、極端なドメイン(例:スケッチスタイル)に対しても一般化が可能となる。tqdmはGTA5→Cityscapesの設定において68.9 mIoUを達成し、従来の最先端手法を2.5 mIoU上回った。プロジェクトページは以下のURLで公開されている:https://byeonghyunpak.github.io/tqdm


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています