HyperAIHyperAI

Command Palette

Search for a command to run...

視覚コンテキストのための動的な木構造を組み立てる学習

Kaihua Tang Hanwang Zhang Baoyuan Wu Wenhan Luo Wei Liu

概要

画像内のオブジェクトを視覚的なコンテキストに配置する動的な木構造の作成を提案します。これにより、シーングラフ生成や視覚的Q&Aなどの視覚的推論タスクが支援されます。当社の視覚的コンテキストツリーモデル(VCTree)は、既存の構造化されたオブジェクト表現であるチェーンや完全連結グラフと比較して、以下の2つの主要な利点があります。効率的で表現力豊かな二分木は、オブジェクト間の固有の並列/階層的な関係を符号化します。たとえば、「服」(clothes)と「パンツ」(pants)は通常共起し、「人」(person)に属します。動的な構造は画像ごと、タスクごとに変化し、オブジェクト間でのよりコンテンツ/タスク特異的なメッセージ伝達を可能にします。VCTreeを構築するために、各オブジェクトペア間のタスク依存的な妥当性を計算するスコア関数を設計しました。このスコア行列から最大全域木の二分版が得られ、それが木構造となります。次に、双方向TreeLSTMによって視覚的コンテキストが符号化され、タスク特異的なモデルによってデコードされます。私たちはエンドタスク監督学習と木構造強化学習を統合したハイブリッド学習手順を開発しました。ここで、前者の評価結果は後者の構造探索における自己批評として機能します。2つのベンチマーク(Visual Genomeのシーングラフ生成とVQA2.0の視覚的Q&A)において行われた実験結果は、VCTreeが最先端の結果を超えるだけでなく、解釈可能な視覚的コンテキスト構造を見つけることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています