8ヶ月前

マルチモーダル表現

視覚質問応答

自然言語処理

自然言語処理

マルチモーダル

Zijian Zhou Miaojing Shi Holger Caesar

概要

パノプティック・シーングラフ生成（PSG）は、物体のセグメンテーションと物体間の関係予測を同時に実行することで、包括的な画像理解を目指しています。しかし、関係におけるロングテール問題により、実世界での応用では満足のいく結果が得られていません。従来の手法は主に視覚情報に依存するか、物体や関係の名前などの限定的な言語情報を利用しており、言語情報の有用性を見落としています。大規模言語モデル（LLM）の最近の進歩を活用し、特に稀な関係に対して言語情報を用いて関係予測を支援することを提案します。この目的のために、ビジョン-言語プロンプティング（VLPrompt）モデルを提案しました。このモデルは画像から視覚情報を取得し、大規模言語モデルから言語情報を取得します。その後、注意機構に基づくプロンプター・ネットワークを通じて精密な関係予測を達成します。我々の広範な実験結果は、VLPromptがPSGデータセットにおいて従来の最先端手法を大幅に上回ることを示しており、言語情報を取り込むことによる効果性と関係のロングテール問題の緩和が証明されています。コードは \url{https://github.com/franciszzj/TP-SIS} で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル表現

視覚質問応答

自然言語処理

自然言語処理

マルチモーダル

Zijian Zhou Miaojing Shi Holger Caesar

概要

パノプティック・シーングラフ生成（PSG）は、物体のセグメンテーションと物体間の関係予測を同時に実行することで、包括的な画像理解を目指しています。しかし、関係におけるロングテール問題により、実世界での応用では満足のいく結果が得られていません。従来の手法は主に視覚情報に依存するか、物体や関係の名前などの限定的な言語情報を利用しており、言語情報の有用性を見落としています。大規模言語モデル（LLM）の最近の進歩を活用し、特に稀な関係に対して言語情報を用いて関係予測を支援することを提案します。この目的のために、ビジョン-言語プロンプティング（VLPrompt）モデルを提案しました。このモデルは画像から視覚情報を取得し、大規模言語モデルから言語情報を取得します。その後、注意機構に基づくプロンプター・ネットワークを通じて精密な関係予測を達成します。我々の広範な実験結果は、VLPromptがPSGデータセットにおいて従来の最先端手法を大幅に上回ることを示しており、言語情報を取り込むことによる効果性と関係のロングテール問題の緩和が証明されています。コードは \url{https://github.com/franciszzj/TP-SIS} で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています