OpenViDial 大規模マルチモーダル対話データセット

OpenViDial は、大規模なマルチモーダル対話データセットです。 OpenViDial は、映画やテレビの作品から対話ターンと視覚的コンテキストを抽出し、各対話ターンは、それが発生する視覚的コンテキストと照合されます。
OpenViDial データセットには合計 110 万の対話ターンが含まれているため、画像には 110 万の視覚的コンテキストが保存されます。
OpenViDial は、大規模なマルチモーダル対話データセットです。 OpenViDial は、映画やテレビの作品から対話ターンと視覚的コンテキストを抽出し、各対話ターンは、それが発生する視覚的コンテキストと照合されます。
OpenViDial データセットには合計 110 万の対話ターンが含まれているため、画像には 110 万の視覚的コンテキストが保存されます。