8ヶ月前

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Moitreya Chatterjee Alexander G. Schwing

概要

画像から段落を生成する技術は、最近注目を集め、ビデオの要約、編集、および障害者の支援において重要な課題となっています。従来の画像キャプション生成手法は、長くて情報量の多い説明を生成することに適していないため、この分野では不足しています。さらに、古典的な画像キャプションシステムから複数の短い文を単純に連結するだけの方法では、段落の複雑さ——一貫性のある文章、全体的に整合性のある構造、そして多様性——が十分に反映されません。これらの課題に対処するために、我々は「連携ベクトル」（coherence vectors）、「全体トピックベクトル」（global topic vectors）、および画像と段落の関連付けにおける固有の曖昧性をモデル化するための変分オートエンコーダー形式を用いて、段落生成技術を強化することを提案します。開発された手法の効果を2つのデータセットで示し、両方において既存の最先端技術を超える性能を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Moitreya Chatterjee Alexander G. Schwing

概要

画像から段落を生成する技術は、最近注目を集め、ビデオの要約、編集、および障害者の支援において重要な課題となっています。従来の画像キャプション生成手法は、長くて情報量の多い説明を生成することに適していないため、この分野では不足しています。さらに、古典的な画像キャプションシステムから複数の短い文を単純に連結するだけの方法では、段落の複雑さ——一貫性のある文章、全体的に整合性のある構造、そして多様性——が十分に反映されません。これらの課題に対処するために、我々は「連携ベクトル」（coherence vectors）、「全体トピックベクトル」（global topic vectors）、および画像と段落の関連付けにおける固有の曖昧性をモデル化するための変分オートエンコーダー形式を用いて、段落生成技術を強化することを提案します。開発された手法の効果を2つのデータセットで示し、両方において既存の最先端技術を超える性能を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

多様性と一貫性のある画像からの段落生成 | 記事 | HyperAI超神経