vor 8 Monaten

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

Zusammenfassung

Aktuelle Methoden zur Erkennung aktiver Sprecher konzentrieren sich auf die Modellierung kurzfristiger audiovisueller Informationen eines einzelnen Sprechers. Obwohl diese Strategie ausreicht, um Einzelsprecher-Szenarien zu bearbeiten, verhindert sie eine genaue Erkennung, wenn es darum geht, herauszufinden, welche der vielen potenziellen Sprecher gerade sprechen. In dieser Arbeit wird der Active Speaker Context (aktiver Sprecher Kontext) vorgestellt, eine neue Darstellung, die Beziehungen zwischen mehreren Sprechern über lange Zeithorizonte modelliert. Unser Active Speaker Context ist so konzipiert, dass er paarweise und zeitliche Beziehungen aus einem strukturierten Ensemble von Audio-Visualbeobachtungen lernt. Unsere Experimente zeigen, dass ein strukturiertes Merkmalsensemble bereits die Leistung der Erkennung aktiver Sprecher verbessert. Darüber hinaus stellen wir fest, dass der vorgeschlagene Active Speaker Context den Stand der Technik im AVA-ActiveSpeaker-Datensatz verbessert und einen mAP von 87,1 % erreicht. Wir präsentieren Reduktionstudien (Ablation Studies), die bestätigen, dass dieses Ergebnis eine direkte Folge unserer langfristigen Mehrsprecher-Analyse ist.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Videobegreifen

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Videobegreifen

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Aktive Sprecher im Kontext

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aktive Sprecher im Kontext

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aktive Sprecher im Kontext

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters