
要約
意味疎さ(Semantic sparsity)は、構造化された視覚分類問題において一般的な課題であり、出力空間が複雑な場合、可能な予測の大部分が訓練セットでほとんど、または全く見られません。本論文では、画像内で何が起こっているかを包括的に要約するタスクである状況認識における意味疎さについて研究しています。この要約には活動、物体、および活動内での物体の役割が含まれます。この問題に関して、我々は経験的にほとんどの物体-役割の組み合わせが稀であることを確認し、現在の最先端モデルがこのようなデータ疎な環境で著しく性能を低下させることを見出しました。これらの多くの誤りを避けるために、(1) 役割-名詞の組み合わせ間で例を共有する新しいテンソル合成関数を導入し、(2) ウェブデータを使用して自動的に希少な出力の例を集めたことで訓練データを意味的に拡張しました。完全なCRFベースの構造化予測モデルに統合した場合、テンソルベースのアプローチはトップ5の動詞と名詞-役割精度において既存の最先端技術よりも相対的に2.11%と4.40%それぞれ改善しました。さらに、意味的な拡張手法を使用して500万枚の画像を追加すると、トップ5の動詞と名詞-役割精度においてさらに相対的に6.23%と9.57%それぞれ改善されました。