HyperAI
Back to Headlines

Japanisches AI-System J-Moshi kann gleichzeitig sprechen und zuhören.

vor 3 Tagen

Das Higashinaka-Labor an der Universität Nagoya in Japan hat einen wichtigen Schritt zur Entwicklung eines AI-Systems gemacht, das die menschliche Konversation nahezu perfekt nachahmen kann. Das Team hat J-Moshi entwickelt, das erste öffentlich verfügbare AI-System, das speziell für japanische Gesprächsmuster konzipiert wurde. J-Moshi erfasst den natürlichen Fluss der japanischen Konversation, bei der kurze verbale Antworten, bekannt als "Aizuchi", häufig verwendet werden, um zu zeigen, dass man aktiv zuhört und beteiligt ist. Beispiele dafür sind "Sou desu ne" (das ist richtig) und "Naruhodo" (ich verstehe). Traditionelle AI-Systeme haben Schwierigkeiten, Aizuchi zu verwenden, da sie nicht gleichzeitig sprechen und zuhören können. Dieses Merkmal ist jedoch besonders wichtig, um eine natürliche japanische Konversation zu simulieren. Daher hat J-Moshi bei japanischen Sprechern großer Beliebtheit gefunden, die seine natürlichen Konversationsmuster schätzen. Das Entwicklungs-Team, angeführt von Forschern aus dem Higashinaka-Labor am Graduiertenschule für Informatik, baute J-Moshi durch die Anpassung des englischsprachigen Moshi-Modells, das von dem gemeinnützigen Labor Kyutai entwickelt wurde. Der Prozess dauerte etwa vier Monate und beinhaltete das Training des Systems mit mehreren japanischen Sprachdatensätzen. Die Ergebnisse wurden auf dem arXiv-Preprint-Server veröffentlicht. Der größte Datensatz stammte von J-CHAT, der größte öffentlich verfügbare japanische Dialogdatenbank, die von der Universität Tokio erstellt und veröffentlicht wurde. Sie enthält rund 67.000 Stunden Audioaufnahmen von Podcasts und YouTube-Videos. Zudem nutzte das Team kleinere, aber hochwertige Dialogdatensätze, die teilweise im Labor gesammelt wurden und andere, die bis 20–30 Jahre zurückreichen. Um ihre Trainingsdaten zu erweitern, konvertierten die Forscher auch schriftliche Chatkonversationen in künstliche Sprache mithilfe eigens entwickelter Text-to-Speech-Programme. Im Januar 2024 erhielt J-Moshi große Aufmerksamkeit, als Demonstrationsvideos im sozialen Netzwerk viral wurden. Neben seiner technischen Neuartigkeit bietet es praktische Anwendungen im Bereich des Sprachlernens. Es kann zum Beispiel nicht-gebürtigen Japanischsprechenden helfen, natürliche Konversationsmuster zu üben und zu verstehen. Das Forschungsteam erkundet auch kommerzielle Anwendungen, etwa in Callcentern, Gesundheitswesen und Kundendienst. Professor Ryuichiro Higashinaka, Leiter des Teams, brachte eine einzigartige Perspektive in die akademische AI-Forschung, da er 19 Jahre lang als Unternehmensforscher bei NTT Corporation tätig war, bevor er vor fünf Jahren an die Universität Nagoya wechselte. Während seiner Tätigkeit in der Industrie arbeitete er an konsumergerechten Dialogsystemen und Sprachassistenten, darunter an einem Projekt zur Realisierung einer Frage-Antwort-Funktion für Shabette Concier, einen Sprachassistentendienst von NTT DOCOMO. Um seine Forschung zu menschlichen Kommunikationsmustern weiter zu verfolgen, gründete er 2020 sein eigenes Labor an der Graduiertenschule für Informatik der Universität Nagoya. Sein 20-köpfiges Team befasst sich mit Herausforderungen, die theoretische Forschung und praktische Anwendungen verbinden, von der Analyse von Konversationsrhythmen im Japanischen bis hin zur Bereitstellung von AI-Guides in öffentlichen Räumen wie Aquarien. Professor Higashinaka sagte: "Technologie wie J-Moshi kann in Systeme integriert werden, die mit menschlichen Operatoren zusammenarbeiten. Zum Beispiel können unsere Guide-Roboter im NIFREL-Aquarium in Osaka routinemäßige Interaktionen unabhängig durchführen und Besucher bei komplexen Fragen oder wenn spezialisierte Unterstützung erforderlich ist, schnell an menschliche Operatoren weiterleiten." Dieses Projekt ist Teil eines nationalen Moonshot-Projekts des Kabinettsamtes, das sich darauf konzentriert, die Servicequalität durch fortschrittliche AI-menschliche Kooperationssysteme zu verbessern. Trotz der bedeutsamen Errungenschaften von J-Moshi bei der Nachahmung natürlicher japanischer Konversationsmuster gibt es noch Herausforderungen. Japan leidet unter einem Mangel an Sprachressourcen, was die Fähigkeit der Forscher einschränkt, AI-Dialogsysteme zu trainieren. Zudem müssen Datenschutzbedenken berücksichtigt werden. Diese Datenknappheit zwang das Team, kreative Lösungen zu finden, wie das Trennen von gemischten Stimmen in Podcastaufnahmen in einzelne Sprecherkanäle, die für das Training benötigt werden. Aktuelle Dialogsysteme haben Schwierigkeiten, komplexe soziale Situationen zu meistern, insbesondere wenn zwischenmenschliche Beziehungen und physische Umgebungen berücksichtigt werden müssen. Auch visuelle Hindernisse wie Masken oder Hüte können ihre Leistung beeinträchtigen, da wichtige visuelle Hinweise wie Mimik und Gestik bedeckt sind. Tests im NIFREL-Aquarium in Osaka zeigten, dass das AI-System manchmal nicht in der Lage ist, Benutzerfragen zu bearbeiten, und menschliche Operatoren eingreifen und das Gespräch übernehmen müssen. Um diese Herausforderungen zu bewältigen, arbeitet das Team an erweiterten menschlichen Backup-Systemen, einschließlich Methoden zur Dialogzusammenfassung und Dialogzusammenbruchserkennungssystemen, die Operatoren über potenzielle Probleme informieren, damit sie schnell reagieren können. Das Labor forscht ferner an verschiedenen Methoden für die Mensch-Roboter-Interaktion. In Zusammenarbeit mit Kollegen, die sich mit realistischen humanoiden Robotern beschäftigen, entwickeln sie Roboter-Systeme, die Sprache, Gestik und Bewegung koordinieren, um eine natürliche Kommunikation zu ermöglichen. Diese Roboter, darunter Modelle des Herstellers Unitree Robotics, repräsentieren die neuesten Fortschritte in der körperlichen Darstellung von AI, wo Dialogsysteme nicht nur konversationelle Feinheiten, sondern auch physische Präsenz und räumliches Bewusstsein navigieren müssen. Das Team zeigt regelmäßig seine Arbeit während der offenen Tage der Universität, wo die Öffentlichkeit die Evolution von AI-Dialogsystemen direkt erleben kann. Ihr Artikel über J-Moshi wurde für die Veröffentlichung auf Interspeech, der größten internationalen Konferenz im Bereich der Sprachtechnologie und -forschung, angenommen. Professor Higashinaka und sein Team freuen sich darauf, ihre Forschung im August 2025 in Rotterdam, Niederlande, präsentieren zu können. "In absehbarer Zukunft werden wir Systeme sehen, die in der Lage sind, nahtlos mit Menschen durch natürliche Sprache und Gestik zusammenzuarbeiten. Ich strebe danach, die grundlegenden Technologien zu schaffen, die für eine solche transformative Gesellschaft unerlässlich sein werden," sagte Professor Higashinaka. Die Arbeit des Higashinaka-Labors an J-Moshi markiert einen wichtigen Meilenstein in der Entwicklung von AI-Dialogsystemen, die den natürlichen Fluss der japanischen Konversation einfangen. Trotz der bestehenden Herausforderungen ist das Team optimistisch, dass J-Moshi und ähnliche Systeme in naher Zukunft in verschiedenen Bereichen eine wesentliche Rolle spielen werden. Die Forschung wird kontinuierlich fortgesetzt, um die Leistungsfähigkeit der Systeme zu verbessern und ihre Integration in den Alltag zu erleichtern.

Related Links