HyperAIHyperAI

Command Palette

Search for a command to run...

視覚関係検出における内部および外部の言語知識蒸留

Ruichi Yu; Ang Li; Vlad I. Morariu; Larry S. Davis

概要

視覚関係の理解には、主語、目的語、およびそれらを結びつける述語の特定が含まれます。私たちは、述語と(主語, 目的語)ペアとの間の強い相関関係(意味的にも空間的にも)を利用して、主語と目的語に基づいて述語を予測します。3つのエンティティを共同でモデリングすることは、それらの関係をより正確に反映しますが、視覚的な関係の意味空間が非常に大きく、訓練データが限られていることから学習が複雑になります。特に、少数のインスタンスしかない長尾分布の関係についてはその傾向が顕著です。これを克服するために、言語統計に関する知識を使用して視覚モデルの学習を正則化します。言語的な知識は、訓練アノテーション(内部知識)や公開されているテキスト(外部知識)、例えばWikipediaから採掘し、(主語, 目的語)ペアを与えたときの述語の条件付き確率分布を計算することで得られます。その後、この知識を深層モデルに蒸留させることでより良い汎化性能を達成します。Visual Relationship Detection (VRD) データセットとVisual Genomeデータセットでの実験結果は示していますが、この言語的な知識蒸留により、私たちのモデルは未見の関係を予測する際特に現行最良手法よりも大幅に優れた性能を発揮しており(例:VRDゼロショットテストセットにおける再現率は8.45%から19.17%へ向上しました)。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています