Datum

vor 2 Monaten

Organisation

Paper-URL

1b7whO4SfY

Tags

Künstliche Intelligenz

Das Konzept der Gated Attention wurde im Mai 2025 vom Team von Alibaba Tongyi Qianwen in Zusammenarbeit mit Forschungsteams der Universität Edinburgh, der Stanford University und anderer Universitäten entwickelt. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsity und Attention-Sink-Free", gewann den Best Paper Award auf der NeurIPS 2025.

Das Forschungsteam untersuchte systematisch eine Reihe von Varianten der Gated-Enhanced Softmax Attention in umfangreichen Experimenten (30 Varianten von 15 Milliarden MoE- und 1,7 Milliarden Dense-Modellen, trainiert mit 3,5 Billionen Token). Die Studie ergab, dass die Anwendung eines Sigmoid-Gatings mit spezifischem Kopf nach Scaled Dot Product Attention (SDPA) die Modellleistung konsistent verbessern kann. Dieses Ergebnis unterstreicht den Einfluss von Gating-Mechanismen auf die Modellleistung und das Verhalten in Standard-Attention-Layern und zeigt deren Fähigkeit, Nichtlinearität und Sparsity einzuführen sowie Attention Traps durch die Evaluierung von Gating-Varianten zu eliminieren. Diese Erkenntnisse vertiefen das Verständnis von Gated-Attention-Mechanismen in der Branche.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor 2 Monaten

Organisation

Paper-URL

1b7whO4SfY

Verwandt Wiki

Layout-Steuerungsframework InstanceAssemble

InstanceAssemble ermöglicht die Erzeugung hochwertiger und kontrollierbarer Bilder unter multimodalen Bedingungen.

vor 2 Monaten

Gruppenvarianzstrategieoptimierung (GVPO)

Angesichts der Einschränkungen bestehender Feinabstimmungstechniken wie GRPO hat sich GVPO als zuverlässiges und vielseitiges Nachbearbeitungsparadigma etabliert.

vor 3 Monaten

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

Ein neuartiges, prinzipienbasiertes, diskriminatives Optimierungsframework für Nebenbedingungen vermeidet Verzerrungen durch den Schwierigkeitsgrad und Instabilität beim Training.

vor 2 Monaten

MultiPL-MoE-Architektur

MultiPL-MoE ist eine effektive Methode zur Erweiterung von Low-Source-Programmiersprachen in der Post-Pre-Training-Phase.

vor 2 Monaten

Cache-to-Cache (C2C)

C2C ermöglicht die direkte semantische Kommunikation durch die Transformation und Verschmelzung von Schlüssel-Wert-Caches (KV-Caches) zwischen Modellen.

vor 2 Monaten

Raten – Nachdenken – Antworten

GTA übertrifft Standard-SFT-Baselines und modernste RL-Methoden in mehreren Textklassifizierungs-Benchmarks deutlich.

vor 3 Monaten

DexFlyWheel-Datengenerierungsframework

DexFlyWheel ist ein skalierbares und sich selbst verbesserndes Datengenerierungsparadigma für agile Prozesse.

vor 3 Monaten

DiDi-Instruct-Nachschulungsmethode

Das erste Framework, das erfolgreich die Verteilungsabgleichsdestillation auf die MDM-basierte Textgenerierung anwendet und damit einen Rekord in der Generierung von Sprachsequenzen in wenigen Schritten aufstellt.

vor 2 Monaten

Exponential-Gaussian Mixture Network (EGMN)

EGMN hat die potenziellen Interaktionseffekte zwischen Nutzerpräferenzen und Videofunktionen erfolgreich erfasst.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Gesteuerte Aufmerksamkeit | Wiki | HyperAI

Command Palette

Gesteuerte Aufmerksamkeit

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Gesteuerte Aufmerksamkeit

Verwandt Wiki

Layout-Steuerungsframework InstanceAssemble

Gruppenvarianzstrategieoptimierung (GVPO)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

MultiPL-MoE-Architektur

Cache-to-Cache (C2C)

Raten – Nachdenken – Antworten

DexFlyWheel-Datengenerierungsframework

DiDi-Instruct-Nachschulungsmethode

Exponential-Gaussian Mixture Network (EGMN)

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Gesteuerte Aufmerksamkeit

Verwandt Wiki

Layout-Steuerungsframework InstanceAssemble

Gruppenvarianzstrategieoptimierung (GVPO)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

MultiPL-MoE-Architektur

Cache-to-Cache (C2C)

Raten – Nachdenken – Antworten

DexFlyWheel-Datengenerierungsframework

DiDi-Instruct-Nachschulungsmethode

Exponential-Gaussian Mixture Network (EGMN)

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

Layout-Steuerungsframework InstanceAssemble

Gruppenvarianzstrategieoptimierung (GVPO)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

MultiPL-MoE-Architektur

Cache-to-Cache (C2C)

Raten – Nachdenken – Antworten

DexFlyWheel-Datengenerierungsframework

DiDi-Instruct-Nachschulungsmethode

Exponential-Gaussian Mixture Network (EGMN)

Verwandt Wiki

Layout-Steuerungsframework InstanceAssemble

Gruppenvarianzstrategieoptimierung (GVPO)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

MultiPL-MoE-Architektur

Cache-to-Cache (C2C)

Raten – Nachdenken – Antworten

DexFlyWheel-Datengenerierungsframework

DiDi-Instruct-Nachschulungsmethode

Exponential-Gaussian Mixture Network (EGMN)