
In komplexen Umgebungen können Menschen die Bedeutung von Sprache besser verstehen als KI, da wir nicht nur unsere Ohren, sondern auch unsere Augen verwenden.
Wenn wir beispielsweise sehen, wie sich der Mund einer Person bewegt, wissen wir möglicherweise intuitiv, dass das Geräusch, das wir hören, von dieser Person kommen muss.
Meta AI arbeitet an einem neuen KI-Dialogsystem, das der KI beibringen soll, auch subtile Zusammenhänge zwischen dem, was sie in einem Gespräch sieht und hört, zu erkennen.
VisualVoice lernt auf ähnliche Weise wie Menschen, neue Fähigkeiten zu erlernen, und ermöglicht die audiovisuelle Trennung von Sprache durch das Erlernen visueller und akustischer Hinweise aus unbeschrifteten Videos.
Bei Maschinen führt dies zu einer besseren Wahrnehmung, während sich die menschliche Wahrnehmung verbessert.
Stellen Sie sich vor, Sie könnten mit Kollegen aus aller Welt an Gruppentreffen im Metaversum teilnehmen und sich an kleineren Gruppentreffen anschließen, während sie sich durch den virtuellen Raum bewegen, wobei sich der Nachhall und die Klangfarben in der Szene entsprechend der Umgebung anpassen.
Das heißt, es kann Audio-, Video- und Textinformationen gleichzeitig erfassen und verfügt über ein umfassenderes Modell zum Verständnis der Umgebung, sodass den Benutzern ein wirklich beeindruckendes Klangerlebnis geboten wird.
Veröffentlichungszeit: 20. Juli 2022