8ヶ月前

マルチモーダル

コンピュータビジョン

ビデオ理解

マルチモーダル

コンピュータビジョン

Haoning Wu ♦♡ 1 Zicheng Zhang ♪ 2 Weixia Zhang 2 Chaofeng Chen 1 Liang Liao 1 Chunyi Li 2 Yixuan Gao 1,2 Annan Wang 1 Erli Zhang 1 Wenxiu Sun 3

概要

オンラインで利用可能な視覚コンテンツの急増は、多様な種類の視覚コンテンツに対して堅牢に評価スコアを算出できる正確な機械評価システムの必要性を強調しています。最近の研究では、大規模マルチモーダルモデル（LMMs）が関連する広範な分野で優れた可能性を持っていることが示されていますが、本研究では、これらのモデルを人間の意見と一致した視覚評価に教える方法を探ります。主観的な研究において、人間の評価者が離散的なテキスト定義レベルのみを学習し判断することに注目し、この主観的なプロセスを模倣してLMMsにテキスト定義レベルでの評価を教える提案を行います。提案されたQ-Alignは、画像品質評価（IQA）、画像美しさ評価（IAA）、ならびにビデオ品質評価（VQA）タスクにおいて、元のLMM構造のもとで最先端の性能を達成しています。さらに、シラバスにより3つのタスクを1つのモデルであるOneAlignに統合しました。実験では、離散レベルベースのシラバスが直接スコアベースの変種よりもLMMsにとって有利であることを示しています。当該コードおよび事前学習済みウェイトは、https://github.com/Q-Future/Q-Align で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

コンピュータビジョン

ビデオ理解

マルチモーダル

コンピュータビジョン

Haoning Wu ♦♡ 1 Zicheng Zhang ♪ 2 Weixia Zhang 2 Chaofeng Chen 1 Liang Liao 1 Chunyi Li 2 Yixuan Gao 1,2 Annan Wang 1 Erli Zhang 1 Wenxiu Sun 3

概要

オンラインで利用可能な視覚コンテンツの急増は、多様な種類の視覚コンテンツに対して堅牢に評価スコアを算出できる正確な機械評価システムの必要性を強調しています。最近の研究では、大規模マルチモーダルモデル（LMMs）が関連する広範な分野で優れた可能性を持っていることが示されていますが、本研究では、これらのモデルを人間の意見と一致した視覚評価に教える方法を探ります。主観的な研究において、人間の評価者が離散的なテキスト定義レベルのみを学習し判断することに注目し、この主観的なプロセスを模倣してLMMsにテキスト定義レベルでの評価を教える提案を行います。提案されたQ-Alignは、画像品質評価（IQA）、画像美しさ評価（IAA）、ならびにビデオ品質評価（VQA）タスクにおいて、元のLMM構造のもとで最先端の性能を達成しています。さらに、シラバスにより3つのタスクを1つのモデルであるOneAlignに統合しました。実験では、離散レベルベースのシラバスが直接スコアベースの変種よりもLMMsにとって有利であることを示しています。当該コードおよび事前学習済みウェイトは、https://github.com/Q-Future/Q-Align で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています