direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Qualität und Verständlichkeit synthetischer Sprache

LOCATION:  TEL, Auditorium 2 (20th floor), Ernst-Reuter-Platz 7, 10587 Berlin

Date/Time: 17.09.2018, 14:30-15:00    

SPEAKER: Anton Krusche (TUB)

ABSTRACT:

Synthetische Sprache hat in der Anwendung für sprachaudiometrische Tests ein großes Potential, denn sie würde es ermöglichen, Stimulusmaterial mit geringem Aufwand zu generieren und flexible und vielseitige Tests durchzuführen. Die Auswahl eines geeigneten Synthesesystems ist ein wichtiger Schritt bei der Ausarbeitung solcher Tests. Sie erfordert aber unter Umständen einen Vortest zur Qualitätsbestimmung der von den zur Verfügung stehenden Systemen generierten Sprache. Um diesen Schritt zu vereinfachen, bietet sich der Einsatz eines Qualitätsschätzers an, wobei dieser auch in der Lage sein sollte, die Qualität von natürlicher Sprache abzubilden. Drei von fünf universellen Qualitätsdimensionen der Gesamtqualität von synthetischer Sprache waren in einer vorangegangen Arbeit von besonderem Interesse. In der vorliegenden Arbeit wurden drei Regressionsmodelle trainiert und auf ihre Eignung dahingehend überprüft, diese Qualitätsdimensionen sowohl für synthetische Sprache als auch für natürliche Sprache zu schätzen.
Dafür wurden die Modelle zuerst mit den Daten von drei vorliegenden Datenbanken trainiert. Dies geschah mit Merkmalen auf Basis von Mel Cepstral Coefficients und prosodischen Merkmalen der vorliegenden Sprachdateien, welche zum Training eines Gaussian Mixtures Models, eines MARS-Modells und eines Support-VectorRegression-Modells verwendet wurden. Für jedes dieser Modelle wurde vorher eine Merkmalsauswahl durchgeführt, um redundante Merkmale oder Merkmale mit negativem Einfluss auf die Regressionsbildung auszuschließen. Wegen des Aufbaus der den Datenbanken zugrunde liegenden Studien wurden nur Modelle zur Schätzung der Qualitätsdimensionen von Sprache weiblicher Stimmen erstellt.
Anschließend wurden die Modelle in drei unterschiedlichen Testansetzungen evaluiert. Die Testansetzungen waren eine Evaluation mit den Trainingsdaten, eine LeaveOne-Out-Kreuzvalidierung und ein Test mit trainingsfremden Daten. Für die ersten beiden Testmethoden tat sich das SVR-Modell besonders hervor und schaffte es gute Ergebnisse zu erzielen. Die letzte Testmethode machte allerdings deutlich, dass keines der Modelle eine zufriedenstellende Generalisierbarkeit aufweisen kann. Dies zu ändern wäre eine gute Zielsetzung für weiterführende Arbeiten.

Zusatzinformationen / Extras

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe

Copyright TU Berlin 2008