direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Instrumentelle Schätzung der Qualität synthetisierter Sprachsignale (TTS Evaluation)

Motivation und Projektbeschreibung

Synthetisierte Sprache hat inzwischen einen Reifegrad erreicht, der sie als geeignet für verschiedene kommerzielle Anwendungen erscheinen lässt. So findet man Systeme zur vollständigen Generierung von Sprache aus Rechtschrift-Text (Text-to-Speech, TTS) z.B. in Informationsansagen (Wetter, Kinoprogramm, etc.), SMS- oder E-Mail-Vorlesediensten, Sprachsteuerungen für Hausgeräte oder auch in Navigationssystemen. Der Grund weshalb der Einsatz synthetisierter Sprache meist auf Bereiche beschränkt ist in denen Sprache tatsächlich aus Rechtschrift-Text generiert wird liegt in einem gegenüber natürlicher Sprache immer noch eingeschränktem Qualitätsniveau.

Zur Optimierung der Qualität bedarf es regelmäßiger Qualitätsbewertungen durch Testhörer, welche vorher generierte Sprachproben in einer mehr oder weniger realistischen Abhörsituation vorgespielt bekommen und anschließend verschiedene Eigenschaften des Gehörten bewerten sollen. Durch die große Anzahl an Versuchspersonen (15...50) und die durch Planung, Vorbereitung, Durchführung und Auswertung in Anspruch genommene Zeit entstehen Kosten, die eine regelmäßige Durchführung von Hörversuchen nicht möglich machen. Eine instrumentelle Schätzung der Gesamtqualität und anderer Aspekte synthetischer Sprache (Natürlichkeit, Verstehbarkeit...) wäre deshalb wünschenswert.

Ziel dieses Forschungsvorhabens ist es, ein instrumentelles Verfahren zu entwickeln, welches verschiedene Qualitätsmerkmale allein aus dem Sprachsignal schätzt. Hierzu sind zunächst diejenigen Qualitätsmerkmale zu identifizieren und zu isolieren, welche sich direkt im Sprachsignal widerspiegeln. Dazu ist eine umfangreiche Bestimmung aller qualitätsrelevanten Einflussgrößen für verschiedene Synthesesysteme und Einsatzgebiete notwendig. Auf der Grundlage systematisch variierter Einflussgrößen werden Sprachproben generiert und bezüglich verschiedener Qualitätsmerkmale sowie der Gesamtqualität auditiv bewertet. Parallel dazu werden Signalanalysen durchgeführt, welche zum Ziel haben, die auditiv bestimmten Qualitätsmesswerte direkt aus dem Sprachsignal zu schätzen.

Im Ergebnis soll ein System vorliegen, das für jede Sprachsynthese und jeden Sprachprompt ein Qualitätsprofil erzeugen kann, welches unterschiedliche Merkmale der Qualität sowie die geschätzte Gesamtqualität übersichtlich darstellt. Der Gültigkeitsbereich eines solchermaßen geschätzten Qualitätsprofils wird anhand verschiedener Datenbanken abgesteckt, welche teilweise dem internationalen Vergleich von Sprachsynthesen, der sog. "Blizzard-Challenge", entnommen sind, teilweise werden neue Datenbanken im Laufe des Forschungsvorhabens unter Mithilfe deutschsprachiger Forschungseinrichtungen, die am Thema Sprachsynthese arbeiten, erzeugt.

Fragestellungen

  • Welche Aspekte sind für die Wahrnehmung und Beurteilung der Qualität synthetisierter Sprache bei verschiedenen Anwendungen relevant? Als prototypische Anwendungen sollen hier vorwiegend Systeme zur Sprachsteuerung von Hausgeräten sowie zum Vorlesen von SMS oder E-Mails betrachtet werden.
  • Welche dieser Qualitätsmerkmale spiegeln sich im Sprachsignal wider? In welchen Signaleigenschaften? Wie lassen sich diese Eigenschaften instrumentell messen?
  • Welche Korrelationen bestehen zwischen den Qualitätsmerkmalen und den Messwerten?
  • Wie lassen sich aus den instrumentellen Messungen Schätzwerte für die Gesamtqualität und für einzelne Qualitätsmerkmale allein aus dem synthetisierten Sprachsignal ableiten?
  • Wie lassen sich diese Schätzwerte in Form eines Qualitätsprofils für verschiedene Anwendungen darstellen?
  • Für welche Syntheseverfahren und Anwendungsbereiche gilt ein solches Qualitätsprofil?
Dauer:

09/2010 - 08/2013
T-labs Mitarbeiter:
Florian Hinterleitner, Sebastian Möller
Partner:
Lehrstuhl für Netzwerk- und Systemtheorie, Christian-Albrechts-Universität, Kiel
Centre for Speech Technology Research (CSTR), University of Edinburgh
Förderung durch:
Deutsche Forschungsgemeinschaft (DFG)
MO 1038/11-1
Veröffentlichungen:
siehe Veröffentlichungsliste von Hinterleitner / Möller

Zusatzinformationen / Extras

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe