NVIDIA GPUs verbessern Video- und Sprachbearbeitung, Einführung von Floating-Point 8 für effizientes AI-Training.
Kameras mit 4:2:2-Farbkompression und generative KI-Videomodelle sind zunehmend im Fokus der Konsumtechnologie. Diese Entwicklungen revolutionieren Videoaufnahmen und -bearbeitung, indem sie mehr Farbinformationen erfassen und die Produktionszeiten erheblich verkürzen. NVIDIA played a pivotal role in this advancement with its latest GPU architectures. 4:2:2-Kameras werden allgemein verfügbar Traditionell waren Kameras mit 4:2:2-Farbkompression auf professionelle Anwendungen und hohe Preise beschränkt. Doch jetzt bieten Hersteller wie Canon, Sony und Panasonic kostengünstige Modelle unter 600 Euro an. Im Vergleich zu Standardkameras, die 4:2:0 8-Bit-Kompression verwenden, fangen 4:2:2-Kameras doppelt so viele Farbinformationen ein, während die Rohdateigröße nur um 30% höher ist. Dies führt zu besseren Farbdarstellungen und mehr Flexibilität bei der Farbkorrektur und -graduierung. Allerdings erfordert die zusätzliche Farbinformation mehr Rechenleistung, was oft zu Stottern beim Abspielen von Streams führt. Daher mussten viele VideoeditorInnen bisher Proxies erstellen, was zeitaufwendig und die Fidelity senkte. NVIDIA Blackwell-Architektur und 4:2:2-Unterstützung Die neuen NVIDIA RTX GPUs, basierend auf der Blackwell-Architektur, enthalten spezielle Hardware zur Kodierung und Dekodierung von 4:2:2-Videos. Die GPUs verfügen über fünfte-Generation Tensor Cores, die KI- und Deep-Learning-Arbeitslasten beschleunigen. Die GeForce RTX 50 Serie und die NVIDIA RTX PRO Blackwell Serie sind auf diese Anforderungen ausgerichtet und bieten erhebliche Leistungsverbesserungen. Zum Beispiel kann die GeForce RTX 5090 GPU den 4:2:2-Encoding-Prozess um das Zehnfache beschleunigen und bis zu 8K 75 Frames pro Sekunde dekodieren. Beliebte Videobearbeitungssoftware wie Blackmagic Design’s DaVinci Resolve, CapCut und Wondershare Filmora unterstützen diese Hardwarebeschleunigung, wobei Adobe Premiere Pro Decode-Unterstützung anbietet. Generative KI-Videomodelle verbessern die Workflow-Effizienz Generative KI-Videomodelle ermöglichen VideoeditorInnen, Füllbilder zu generieren, Clips zu erweitern, Videostile zu modifizieren und fortgeschrittene visuelle Effekte anzuwenden. Narendra Kauthale, Senior Product Manager bei NVIDIA, betont: "Diese Modelle reduzieren die Produktionszeiten drastisch und erweitern die kreativen Möglichkeiten." NVIDIA GPUs basierend auf der Blackwell-Architektur ermöglichen es, diese komplexen Modelle schnell und lokal zu betreiben, unterstützt durch CUDA-Optimierungen für PyTorch und FP4-Quantisierung, die die Performance um das Zweifache steigern und den VRAM-Bedarf halbieren. Fortgeschrittene KI-Videofunktionen in modernen Apps Moderne Videobearbeitungsanwendungen integrieren zunehmend fortschrittliche KI-Funktionen. DaVinci Resolve Studio 20 bietet neue AI-Effekte und verwendet NVIDIA TensorRT zur Optimierung der AI-Leistung. Ein Beispiel ist UltraNR Noise Reduction, eine künstliche Intelligenz, die digitales Rauschen intelligent reduziert, ohne dabei an Schärfe zu verlieren. Magic Mask v2 ermöglicht es BenutzerInnen, Objekte, Personen oder Merkmale in Szenen schnell und präzise auszuwählen und zu verfolgen, was den Prozess der Erstellung von Masken und Effekten deutlich vereinfacht. Topaz Video AI Pro nutzt AI-Modelle, um die Videoauflösung auf 4K, 8K und sogar 16K zu erhöhen, Detailtreue zu steigern und Artefakte und Rauschen zu minimieren. Topaz Starlight ist das erste lokale Desktop-Diffusionsmodell für Videoenhancement, das besonders anspruchsvolle Aufnahmen verbessern kann. Adobe Premiere Pro hat ebenfalls neue KI-Funktionen eingeführt, darunter Adobe Media Intelligence, das Fußmaterial analysiert und semantische Tags anwendet, um die Suche nach bestimmten Clips zu erleichtern. Enhance Speech verbessert die Qualität aufgezeichneter Sprachsignale durch Filterung von Störgeräuschen und liefert klarere Audios. Hardwarebeschleunigung für effiziente Videobearbeitung GeForce RTX und NVIDIA RTX PRO GPUs bieten die Rechenleistung, die für erweiterte Videobearbeitungsworkflows benötigt wird. Sie enthalten leistungsstarke NVDEC-Hardwaredekoder, die glattes Abspielen und Scrollen von hochauflösenden Videodateien ermöglichen, ohne dass Proxies benötigt werden. Creative Apps nutzen diese zusätzlichen Encoder, um mehrere 8K- oder 4K-Streams gleichzeitig zu bearbeiten, was die Bearbeitung vielfacher Kameraeinstellungen ohne Verzögerungen ermöglicht. Die CUDA-Kerne beschleunigen Video- und Bildverarbeitungseffekte sowie Renderingzeiten. Die neunte-Generation Videoencoder der GeForce RTX 50 Serie verbessern zudem die Videoqualität bei HEVC und AV1-Kodierung um 5%, wobei die UHQ-Modus der Blackwell-Encoder die Qualität nochmals um 5% steigert. Multi-Encoder-Kodierung wird in DaVinci Resolve, CapCut und Filmora unterstützt, was die Exportgeschwindigkeit um bis zu 2,5-fach erhöht. NVIDIA treibt die Fortschritte in Sprach- und Sprachmodellen vor NVIDIA setzt neue Maßstäbe in der Automatischen Spracherkennung (ASR) und Sprachmodellen. NVIDIA Parakeet TDT 0.6B v2, ein 600-Millionen-Parameter-Modell, ist derzeit auf dem Hugging Face ASR-Leaderboard führend und zeichnet sich durch einen Branchenbesten Word Error Rate (WER) von 6,05% und extrem schnelle Inferenz (RTFx 3386,02, was 50-mal schneller als Alternativen ist) aus. Es bietet innovative Funktionen wie Wort-Level-Zeitstempel und die Transkription von Liedtexten. Parakeet v2 ist Open Source und für kommerzielle Nutzung verfügbar. NVIDIA NeMo Canary-Modelle, ebenfalls auf dem Hugging Face Leaderboard vertreten, zeigen starke multilinguale Leistung und schnelle Inferenz. Der NeMo Canary 1B und NeMo Canary 1B Flash rangieren auf den Plätzen 3 und 4, was ihre Fähigkeiten zur Spracherkennung und -übersetzung in mehreren wichtigen Sprachen unterstreicht. Details und Einsatzmöglichkeiten der NVIDIA-Sprachmodelle Die neuesten NVIDIA-Sprachmodelle sind darauf ausgelegt, wo es wirklich zählt. Das FastConformer-TDT-Modell für englische Transkriptionen (en-US) kombiniert industry-besten WER, ultra-schnelle Inferenz und Wort-Level-Zeitstempel. Das FastConformer-RNNT-Modell unterstützt 25 Sprachen und ist punktationsbewusst. Das FastConformer-CTC-Modell (mit optionalem Silero VAD) ist besonders robust gegenüber Hintergrundgeräuschen und eignet sich hervorragend für Virtual Assistants und Unternehmensstimmanwendungen in lauten Umgebungen wie Krankenhäusern, Flughäfen und Drive-Through-Kiosken. NVIDIA Riva bietet eine Suite von GPU-beschleunigten, mehrsprachigen Sprach- und Übersetzungs-Mikroservices für benutzerdefinierte, in Echtzeit arbeitende konversationsbasierte AI-Pipelines. Diese Modelle sind über NVIDIA AI Enterprise, NVIDIA NGC und als NVIDIA NIM-Mikroservices leicht bereitzustellen. Fazit NVIDIA setzt neue Standards in der Videobearbeitung und Spracherkennung durch die Integration von 4:2:2-Unterstützung und fortschrittlichen KI-Funktionen in seine GPU-Architekturen. Die Blackwell-Architektur und die GeForce RTX 50 Serie sind darauf ausgelegt, die Rechenleistung und Effizienz zu steigern, während die neuesten Parakeet- und NeMo Canary-Modelle in der automatischen Spracherkennung neue Höchstleistungen erzielen. Diese Technologien bieten VideoeditorInnen und EntwicklerInnen gleichermaßen erweiterte kreative Freiheiten und schnelle, präzise Ergebnisse, die die Produktionszeiten erheblich verkürzen und die Qualität der Endprodukte verbessern. Kontextuelle Informationen Expertinnen und Experten in der Branche kommentieren die Bedeutung dieser Entwicklungen positiv. NVIDIA’s CEO Jensen Huang spricht in seiner Keynote auf der NVIDIA GTC Paris am 11. Juni über die Zukunft der KI-gestützten Videotechnologien. Interessierte können auch an Workshops am 10. Juni teilnehmen oder zwei Tage lang technische Sitzungen, Schulungen und Zertifizierungen nutzen. NVIDIA bietet regelmäßig Updates und Ressourcen, um EntwicklerInnen bei der Implementierung und Nutzung dieser Technologien zu unterstützen.