HyperAIHyperAI

Command Palette

Search for a command to run...

SeqTR:視覚的接地のためのシンプルでありながら普遍的なネットワーク

Chaoyang Zhu Yiyi Zhou Yunhang Shen Gen Luo Xingjia Pan Mingbao Lin Chao Chen Liujuan Cao Xiaoshuai Sun Rongrong Ji

概要

本稿では、表現の局所化(phrase localization)、参照表現理解(referring expression comprehension, REC)、参照表現セグメンテーション(referring expression segmentation, RES)などの視覚的接地(visual grounding)タスクに対応する、シンプルでありながら普遍的なネットワーク「SeqTR」を提案する。従来の視覚的接地の定石的手法は、ネットワークアーキテクチャや損失関数の設計に多大な専門知識を要するため、タスク間での一般化が困難である。本研究では、モデル化を単純化・統一するため、画像とテキストの入力を条件として視覚的接地を点予測問題として定式化する。このアプローチでは、バウンディングボックスまたはバイナリマスクを離散的な座標トークンのシーケンスとして表現する。この枠組みにより、SeqTRネットワーク内では、タスク固有のブランチやヘッド(例えばRESにおける畳み込みマスクデコーダ)を必要とせず、複数タスクのモデリングの複雑さを大幅に低減できる。さらに、すべてのタスクにおいて同一の最適化目的(単純な交差エントロピー損失)を共有するため、手動で設計された損失関数の導入も不要となり、さらにモデル導入の複雑さが軽減される。5つのベンチマークデータセットにおける実験結果から、提案手法SeqTRは既存の最先端手法を上回る(あるいは同等の)性能を達成しており、視覚的接地においてシンプルかつ普遍的なアプローチが実現可能であることを実証した。ソースコードは https://github.com/sean-zhuh/SeqTR にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています