8ヶ月前

コンピュータビジョン

オブジェクト検出

視覚質問応答

マルチモーダル

コンピュータビジョン

Rowan Zellers¹ Mark Yatskar¹,² Sam Thomson³ Yejin Choi¹,²

概要

視覚シーンの構造化グラフ表現の生成に関する問題を調査しました。本研究では、モチーフ（scene graphsにおいて頻繁に現れる部分構造）の役割を分析しています。Visual Genomeデータセットにおけるこのような繰り返し構造について新たな定量的な洞察を提供します。分析結果によると、オブジェクトラベルは関係ラベルを高精度で予測できますが、その逆は成立しません。また、より大きな部分グラフにおいても繰り返しパターンが存在することがわかりました：50%以上のグラフが少なくとも2つの関係を含むモチーフを持っています。これらの分析結果に基づき、新しいベースラインを提案します：オブジェクト検出が与えられた場合、訓練セットで観察されたように、与えられたラベルを持つオブジェクトペア間の最も頻繁な関係を予測します。このベースラインは評価設定全体で平均して3.6%の相対的な改善を達成しています。さらに、Stacked Motif Networksという新しいアーキテクチャを導入しました。これは、scene graphsにおける高次のモチーフを捉えるために設計されており、我々の強力なベースラインに対して平均7.1%の相対的な向上を示しています。コードはgithub.com/rowanz/neural-motifsで公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コンピュータビジョン

オブジェクト検出

視覚質問応答

マルチモーダル

コンピュータビジョン

Rowan Zellers¹ Mark Yatskar¹,² Sam Thomson³ Yejin Choi¹,²

概要

視覚シーンの構造化グラフ表現の生成に関する問題を調査しました。本研究では、モチーフ（scene graphsにおいて頻繁に現れる部分構造）の役割を分析しています。Visual Genomeデータセットにおけるこのような繰り返し構造について新たな定量的な洞察を提供します。分析結果によると、オブジェクトラベルは関係ラベルを高精度で予測できますが、その逆は成立しません。また、より大きな部分グラフにおいても繰り返しパターンが存在することがわかりました：50%以上のグラフが少なくとも2つの関係を含むモチーフを持っています。これらの分析結果に基づき、新しいベースラインを提案します：オブジェクト検出が与えられた場合、訓練セットで観察されたように、与えられたラベルを持つオブジェクトペア間の最も頻繁な関係を予測します。このベースラインは評価設定全体で平均して3.6%の相対的な改善を達成しています。さらに、Stacked Motif Networksという新しいアーキテクチャを導入しました。これは、scene graphsにおける高次のモチーフを捉えるために設計されており、我々の強力なベースラインに対して平均7.1%の相対的な向上を示しています。コードはgithub.com/rowanz/neural-motifsで公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています