HyperAIHyperAI
vor 2 Monaten

Prototypbasierte aleatorische Unsicherheitsquantifizierung für cross-modale Retrieval

Hao Li; Jingkuan Song; Lianli Gao; Xiaosu Zhu; Heng Tao Shen
Prototypbasierte aleatorische Unsicherheitsquantifizierung für cross-modale Retrieval
Abstract

Cross-modal Retrieval-Methoden etablieren Ähnlichkeitsbeziehungen zwischen visuellen und sprachlichen Modalitäten durch gemeinsames Lernen eines gemeinsamen Repräsentationsraums. Allerdings sind die Vorhersagen oft aufgrund der aleatorischen Unsicherheit, die durch Daten von geringer Qualität wie z.B. beschädigte Bilder, schnelle Videos und nicht detaillierte Texte verursacht wird, unzuverlässig. In dieser Arbeit schlagen wir ein neues Prototypenbasiertes Aleatorisches Unsicherheitsquantifizierungsrahmenwerk (PAU) vor, um durch die Quantifizierung der aus der inhärenten Datenambiguität resultierenden Unsicherheit vertrauenswürdige Vorhersagen zu liefern. Konkret bauen wir zunächst für jede Modalität eine Reihe verschiedener lernfähiger Prototypen auf, um den gesamten semantischen Teilraum darzustellen. Anschließend nutzen wir die Dempster-Shafer-Theorie und die Subjektive Logik-Theorie, um einen evidenzbasierten theoretischen Rahmen zu erstellen, indem wir Beweise mit den Parametern der Dirichlet-Verteilung in Verbindung bringen. Das PAU-Modell führt zu genauer Unsicherheit und zuverlässigen Vorhersagen für cross-modale Retrieval-Aufgaben. Ausführliche Experimente wurden an vier wichtigen Benchmark-Datensätzen durchgeführt: MSR-VTT, MSVD, DiDeMo und MS-COCO, welche die Effektivität unserer Methode belegen. Der Code ist unter https://github.com/leolee99/PAU verfügbar.

Prototypbasierte aleatorische Unsicherheitsquantifizierung für cross-modale Retrieval | Neueste Forschungsarbeiten | HyperAI