8ヶ月前

視覚質問応答

検索拡張生成

アプローチ／フレームワーク

マルチモーダル

Jiwan Chung Youngjae Yu

概要

大規模言語モデル（GPT-3など）は、タスク固有の訓練データを必要とせずに新しいタスクに適応する印象的な能力を示しています。この能力は、利用可能な監督データが少ないにもかかわらず、タスクの多様性が高い物語質問応答などの設定で特に効果的です。本研究では、これらの言語モデルがドラマ、映画、アニメーションなどのマルチメディアコンテンツにおける長編マルチモーダルな物語にゼロショット推論能力を拡張できるかどうかを調査します。ここで重要なのは、ストーリーが中心的な役割を果たすことです。我々は「Long Story Short」というフレームワークを提案します。このフレームワークはまずビデオの物語を短いプロットに要約し、次に質問に関連するビデオの部分を探します。また、視覚的なマッチングを強化するためにCLIPCheckの使用も提案しています。我々のモデルは最新の監督学習モデルよりも大幅に優れた性能を示しており、長編ビデオに対するゼロショットQAの可能性を強調しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

視覚質問応答

検索拡張生成

アプローチ／フレームワーク

マルチモーダル

Jiwan Chung Youngjae Yu

概要

大規模言語モデル（GPT-3など）は、タスク固有の訓練データを必要とせずに新しいタスクに適応する印象的な能力を示しています。この能力は、利用可能な監督データが少ないにもかかわらず、タスクの多様性が高い物語質問応答などの設定で特に効果的です。本研究では、これらの言語モデルがドラマ、映画、アニメーションなどのマルチメディアコンテンツにおける長編マルチモーダルな物語にゼロショット推論能力を拡張できるかどうかを調査します。ここで重要なのは、ストーリーが中心的な役割を果たすことです。我々は「Long Story Short」というフレームワークを提案します。このフレームワークはまずビデオの物語を短いプロットに要約し、次に質問に関連するビデオの部分を探します。また、視覚的なマッチングを強化するためにCLIPCheckの使用も提案しています。我々のモデルは最新の監督学習モデルよりも大幅に優れた性能を示しており、長編ビデオに対するゼロショットQAの可能性を強調しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

長編ストーリーの要約：長尺ビデオ質問応答のための要約後に検索する方法 | 記事 | HyperAI超神経