HyperAIHyperAI

Command Palette

Search for a command to run...

人間-オブジェクトインタラクションの検出における述語視覚的文脈の探求

Frederic Z. Zhang Yuhui Yuan Dylan Campbell Zhuoyao Zhong Stephen Gould

概要

最近、DETRフレームワークが人間-オブジェクトインタラクション(HOI)研究における主流のアプローチとして浮上している。特に、二段階のTransformerベースのHOI検出器は、高い性能と高い学習効率を兼ね備えた最も優れた手法の一つである。しかし、こうした手法は、細粒度の文脈情報を欠いたオブジェクト特徴に依存してHOI分類を行うことが多く、オブジェクトのアイデンティティやボックスの端点に関する視覚的情報を重視する一方で、ポーズや向きに関する情報を無視している。このため、複雑または曖昧なインタラクションの認識が自然に困難になる。本研究では、可視化と丁寧に設計された実験を通じてこれらの課題を検討する。その結果、クロスアテンションを通じて画像特徴をいかに効果的に再導入するかを検証した。改善されたクエリ設計、キーと値の広範な探索、およびボックスペアの位置埋め込みを空間的ガイドとして用いることで、強化された述語視覚的文脈(PViC)を備えた本モデルは、HICO-DETおよびV-COCOベンチマークにおいて最先端の手法を上回る性能を達成しつつ、低い学習コストを維持している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
人間-オブジェクトインタラクションの検出における述語視覚的文脈の探求 | 記事 | HyperAI超神経