HyperAIHyperAI

Command Palette

Search for a command to run...

ControlCap:制御可能な領域レベルのキャプション生成

Yuzhong Zhao Yue Liu Zonghao Guo Weijia Wu Chen Gong Fang Wan Qixiang Ye

概要

領域レベルのキャプション生成は、キャプションの劣化(caption degeneration)という課題に直面している。これは、事前学習されたマルチモーダルモデルが頻度の高いキャプションを生成しがちであり、低頻度のキャプションを漏らす傾向にあることを指す。本研究では、このキャプション劣化問題に対処するため、制御語(control words)をマルチモーダルモデルに導入する制御可能な領域レベルキャプション生成手法(ControlCap)を提案する。具体的には、ControlCapは識別モジュールを用いてキャプション空間内で制御語を生成し、この空間を複数の部分空間に分割する。その後、マルチモーダルモデルは制御語を含む少数の部分空間内でのみキャプションを生成することを制約されるため、低頻度のキャプションを生成する機会が増加し、結果としてキャプション劣化の緩和が実現される。さらに、制御語は人間や専門モデルによってインタラクティブに指定可能であり、これにより学習時に使用されたキャプション空間を超えた生成が可能となり、モデルの汎化能力が向上する。Visual GenomeおよびRefCOCOgデータセットにおける広範な実験の結果、ControlCapはそれぞれCIDErスコアを21.6および2.2向上させ、従来の最先端手法を大きく上回った。コードはhttps://github.com/callsys/ControlCapにて公開されている


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています