TU Berlin

FG Elektronik und medizinische SignalverarbeitungAudiovisuelle Spracherkennung

Inhalt des Dokuments

zur Navigation

Audiovisuelle Spracherkennung

Der audiovisuelle Spracherkenner JASPER (Java Audiovisueller SPrachERkenner) wurde in den vergangenen Jahren am Fachgebiet EMSP entwickelt und beruht auf gekoppelten HMMs in einer effizienten Token-Passing-Implementierung. Gegenüber reiner akustischer Spracherkennung oder reinem Lippenlesen erreicht man so eine Halbierung der Fehlerrate, verglichen mit der jeweils besten der beiden Einzelmodalitäten.

Für die audiovisuelle Spracherkennung wird die GRID-Datenbasis verwendet, ein Korpus von sprecherunabhängigen Sätzen einer einfachen Kommandosprache, aufgenommen und zur Verfügung gestellt von Jon Barker, Martin Cooke, Stuart Cunningham und Xu Shao: http://www.dcs.shef.ac.uk/spandh/gridcorpus/#credits.

Das Video zeigt ein Beispiel für die audiovisuelle Erkennung bei künstlich gestörten Audiodaten. Hier wurde weisses Rauschen mit 10dB SNR addiert, womit sich eine Erkennungsrate von 81.1% ergibt, verglichen mit 57.5% unter ausschließlicher Verwendung des Audiosignals. In ungestörten Bedingungen erreicht der Erkenner dagegen eine Erkennungsleistung von 99.7%.

Video-Beispiel (WMV, 366,3 KB)

Implementierung

JASPER beruht auf einer Token-Passing-Architektur. Einzelne Wortmodelle werden entsprechend der vorgegebenen Grammatik miteinander verbunden. Für unterschiedliche Anforderungen können verschiedene Typen von Wortmodellen eingesetzt werden. Das können zum Beispiel auf die Rechenzeit optimierte DTW-Modelle sein, gekoppelte Hidden Markov Modelle für die audio-visuelle Spracherkennung bis hin zu ausdrucksstarken Graphischen Modellen für die Modellierung komplexer Zusammenhänge.
Wir verwenden derzeit Hidden Markov Modelle mit Gaußschen Mischungsmodellen für rein akustische Spracherkennung und Lippenlesen. Für die audiovisuelle Erkennung werden gekoppelte HMMs eingesetzt, die auch zeitliche Abweichungen zwischen Audio- und Videostream kompensieren können. Ebenfalls werden Missing Data Techniken eingesetzt, so dass bei teilweise gestörten Audio- und Videomerkmalen nur zuverlässige Informationen berücksichtigt und adäquat gewichtet werden.

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe