direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Page Content

There is no English translation for this web page.

Audio-Visuelle Sprecherlokalisierung zur Realisierung von Mehrpersoneninteraktionen mit Sprachdialogsystemen

LOCATION: Auditorium 1, TEL, Ernst-Reuter-Platz 7, 20th floor

Date/Time: 21.10.2013, 14:15-15:00

SPEAKER: Dennis Pommer

ABSTRACT:

In dieser Arbeit wird ein Konzept zur audio-visuellen Sprecherlokalisierung zur Realisierung von Mehrpersoneninteraktionen mit Sprachdialogsystemen vorgestellt. Mit Hilfe der Microsoft Kinect, Java, OpenNI, NiTE, OpenCV und einem Schallquellenlokalisierungs-Algorithmus konnten Demonstratoren entwickelt werden, die von Experten in einem Interview beurteilt wurden. Eine Fusion der visuell ermittelten Positionsdaten der Systemnutzer mit den Daten der Schallquellenlokalisierung identifiziert den Sprecher und aus einer Analyse der Kopforientierung wird der Interaktionspartner dieses Sprechers geschätzt. Durch einen Spracherkenner kann Sprache zur Interaktionssteuerung nutzbar gemacht machen.

This diploma thesis presents an approach to localize speaker with audio and visual cues in spoken dialog systems with multi-person environments. Demonstrators were developed which used the Microsoft Kinect, Java, OpenNI, NiTE, OpenCV and a sound source localization algorithm. The demonstartors were judged by experts. A fusion of visually determined position data of the users and the data of the sound source localization identifies the speaker. From an analysis of the head orientation the interaction partner of this speaker is estimated. With an automatic speech recognition the system can be controlled by natural language.

HOST: Klaus-Peter Engelbrecht

Zusatzinformationen / Extras

Quick Access:

Schnellnavigation zur Seite über Nummerneingabe

Auxiliary Functions