6ヶ月前

自然言語処理

マルチモーダル

自然言語処理

マルチモーダル

George Han er Luke Melas-Kyriazi Alex Rush

概要

画像段落キャプション生成モデルは、入力画像に対する詳細な記述を生成することを目的としている。これらのモデルは標準的な画像キャプション生成モデルと類似した手法を用いるが、テキスト生成において文間の多様性の欠如といった問題に直面しており、これがその有効性を制限している。本研究では、このタスクにシーケンスレベルの学習を適用することを検討する。標準的な自己批判的学習（self-critical training）では劣った結果が得られるが、3-gramの繰り返しに対して統合的なペナルティを導入することで、はるかに多様性の高い段落生成が可能となる。このシンプルな学習アプローチにより、Visual Genome段落キャプションデータセットにおける最良スコアがCIDErで16.9から30.6に向上し、METEORおよびBLEUスコアにも改善が見られた。なお、アーキテクチャの変更を一切必要としない。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

マルチモーダル

自然言語処理

マルチモーダル

George Han er Luke Melas-Kyriazi Alex Rush

概要

画像段落キャプション生成モデルは、入力画像に対する詳細な記述を生成することを目的としている。これらのモデルは標準的な画像キャプション生成モデルと類似した手法を用いるが、テキスト生成において文間の多様性の欠如といった問題に直面しており、これがその有効性を制限している。本研究では、このタスクにシーケンスレベルの学習を適用することを検討する。標準的な自己批判的学習（self-critical training）では劣った結果が得られるが、3-gramの繰り返しに対して統合的なペナルティを導入することで、はるかに多様性の高い段落生成が可能となる。このシンプルな学習アプローチにより、Visual Genome段落キャプションデータセットにおける最良スコアがCIDErで16.9から30.6に向上し、METEORおよびBLEUスコアにも改善が見られた。なお、アーキテクチャの変更を一切必要としない。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています