HyperAIHyperAI

Command Palette

Search for a command to run...

超微細粒度の意味ラベルを用いたボックス提案と特徴化の分離により、画像キャプション生成および視覚的質問応答が向上する

Soravit Changpinyo Bo Pang Piyush Sharma Radu Soricut

概要

オブジェクト検出は、画像キャプション生成や視覚的質問応答(VQA)などの視覚と言語の統合タスクにおいて、重要な役割を果たしている。しかし、Faster R-CNNのような代表的なモデルは、バウンディングボックスとその対応する意味的ラベルの両方について高コストな真値(ground-truth)のアノテーションを必要とするため、転移学習の基本的なタスクとしての適用が困難である。本論文では、下流タスクにおけるボックス提案(box proposal)と特徴抽出(featurization)の分離がもたらす影響を検討する。重要な洞察として、このアプローチにより従来のオブジェクト検出ベンチマークでは利用できなかった大量のラベル付きアノテーションを活用できることが示される。実証的に、この手法が効果的な転移学習を実現し、公開ベンチマーク上での画像キャプション生成および視覚的質問応答モデルの性能向上につながることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています