TU Berlin

Quality and Usability Lab2018_01_08_Bauckmann

Inhalt des Dokuments

zur Navigation

Instrumentelle und referenzfreie Vorhersage der Diskontinuität als Qualitätsdimension übertragener Sprache

LOCATION:  TEL, Auditorium 3 (20th floor), Ernst-Reuter-Platz 7, 10587 Berlin

Date/Time
: 08.01.2018, 14:15-15:00

SPEAKER: Gregor Bauckmann

ABSTRACT:

Die Bewertung von Qualität übertragener Sprache kann in Abhängigkeit von verschiedenen Dimensionen durchgeführt werden. Eine dieser Dimensionen ist die Diskontinuität. Diskontinuität kennzeichnet sich durch qualitätsmindernde Beeinflussungen des zeitlichen Verlaufs des Sprachsignals. Dazu zählen Störungen wie Unterbrechungen sowie die Verschleierung von Paketverlusten durch ein Ersatzsignal. Ziel der Arbeit ist das Erkennen dieser Paketverluste. Dabei steht kein Referenzsignal zur Verfügung (referenzfreies bzw. nicht-intrusives Verfahren). Für die Lösung des Problems kamen Techniken aus dem Machine Learning (ML) zur Anwendung. Konkret handelt es sich um Recurrent Neural Networks (RNN) und LSTMs, welche speziell für die Analyse sequentieller Daten geeignet sind. Es wurde eine künstliche Datengrundlage durch den Einbau von Paketfehlern erzeugt. Diese Fehler wurden nach dem Sprachcodec AMR-WB und dessen Package Loss Concealment (PLC) verschleiert. Verwendung fanden nur Fehler, die sich hörbar auf die Sprachqualität auswirkten. Getestet wurde die ML-Verfahren sowohl auf Sprachdaten mit einzelnen Burstfehlern also auch auf Daten die über viele zufällig verteilte Paketfehler verfügen. Die Verfahren wurden mit unterschiedlichen Parametern trainiert und die erzielten Ergebnisse aufgezeigt. Letztendlich erfolgte eine Feststellung, ob die gewählten Verfahren für die Lösung des Problems geeignet sind.

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe