HyperAIHyperAI

Command Palette

Search for a command to run...

MemCap:画像キャプション生成のためのスタイル知識の記憶

Xiaoxun Zhang Xinxiao wu Wentian Zhao

概要

画像に対するスタイル化されたキャプション生成は、画像の内容を正確に記述するだけでなく、望ましい言語スタイルを適切に表現する必要があるため、困難なタスクである。本論文では、記憶メカニズムを用いて言語スタイルに関する知識を明示的に符号化する新しいスタイル化画像キャプション生成手法、MemCapを提案する。既存の手法が言語モデルに依存してスタイル要因を捉えようとするのに対し、本手法は学習コーパスから学習されたスタイル化された要素を記憶するアプローチを採用している。特に、学習コーパス内のスタイル関連表現を符号化するための複数の埋め込みベクトルから構成される記憶モジュールを設計した。スタイル関連表現を取得するため、スタイル化された文を、言語スタイルを反映する部分と視覚的コンテンツを含む部分に分解する文分割アルゴリズムを開発した。キャプション生成の際、MemCapはまずアテンション機構を用いて記憶モジュールから内容に関連するスタイル知識を抽出し、その後その抽出された知識を言語モデルに組み込む。SentiCapおよびFlickrStyle10Kという2つのスタイル化画像キャプションデータセットを用いた広範な実験により、本手法の有効性が実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MemCap:画像キャプション生成のためのスタイル知識の記憶 | 記事 | HyperAI超神経