神経記号的ハイブリッドアプローチは、視覚シーンに関する高レベルな理解および推論をスムーズに行うために不可欠である。シーングラフ生成(Scene Graph Generation: SGG)は、深層ニューラルネットワーク(DNN)を基盤とする記号的画像表現手法であり、画像内のオブジェクト、その属性、およびペアワイズの視覚的関係を予測することでシーングラフを構築する。このシーングラフは、下流の視覚的推論タスクに活用される。SGGで用いられるクラウドソーシングによる学習データセットは極めて不均衡であり、これがSGGの結果にバイアスをもたらす。また、可能なトリプレットの数が膨大であるため、すべての視覚的コンセプトや関係について十分な訓練サンプルを収集することは困難である。こうした課題に対処するため、本研究では、通常のデータ駆動型SGGアプローチに共通認識知識(common sense knowledge)を組み込むことで、視覚的理解および推論の表現力と自律性を向上させる手法を提案する。本研究では、DNNベースのパイプラインを用いたオブジェクト検出とマルチモーダルなペアワイズ関係予測によりシーングラフを生成する、緩く結合された神経記号的視覚理解・推論フレームワークを提示する。さらに、異種の知識グラフ(heterogeneous knowledge graphs)に蓄積された共通認識知識を活用し、シーングラフの内容を豊かにすることで、下流タスクにおける推論性能を向上させる。本手法は、Visual GenomeやMicrosoft COCOを含む複数の標準データセット上で包括的な評価が行われ、関係の再現率(relationship recall)に関して、Recall@Kおよびmean Recall@Kにおいて、最先端のSGG手法を上回る結果を示した。また、シーングラフに基づく画像キャプション生成においては、SPICEおよびCIDErスコアにおいても最先端の手法を上回り、BLEU、ROUGE、METEORスコアは比較的同等の水準を維持した。定性的な評価では、知識の豊か化によってシーングラフの表現力が向上し、より直感的で意味のあるキャプション生成が実現された。本研究の結果は、異種知識グラフを用いた共通認識知識によるシーングラフの拡張が有効であることを実証した。本研究は、知識強化型視覚理解・推論に関する今後の研究における基盤を提供するものである。