TU Berlin

FG Elektronik und medizinische SignalverarbeitungRobuste Spracherkennung

Inhalt des Dokuments

zur Navigation

Robuste Spracherkennung

Um stark gestörte oder verzerrte Sprachsignale für automatische Spracherkennungssysteme zugänglich zu machen, können statistische Eigenschaften der Sprach- und Störsignale ausgenutzt werden. Dadurch werden auch Probleme, die rein deterministisch bisher nicht zu lösen sind, mathematisch handhabbar. Besonders vorteilhaft können solche Methoden bei mehrkanaligen Aufnahmen eingesetzt werden. Ein Beispiel für den Einsatz statistischer Methoden ist die Independent Component Analysis (ICA), die für die Extraktion von Signalen verschiedener Sprecher aus einem Signalgemisch benutzt werden kann. Neben dem Einsatz der Independent Component Analysis und einer darauf aufbauenden Computational Auditory Scene Analysis werden auch andere Methoden der mehrkanaligen statistischen Signalverarbeitung untersucht, darunter spektrale Schätzverfahren wie das Ephraim-Malah-Filter und darauf basierende, aktuelle Methoden, wie zum Beispiel das IMCRA-Verfahren, das das Störsignalmodell auch adaptieren kann, während der Zielsprecher aktiv ist. Um die Methoden praktisch zu testen, werden zwei Spracherkennungssysteme eingesetzt, zum einen das Toolkit HTK, und zum anderen ein selbst entwickeltes Erkennungssystem unter Matlab. Unter HTK erfolgt Erkennung für kleine und große Vokabularien, während der Matlab-Erkenner als Entwicklungssystem für kleine bis mittlere Wortschätze, bis ca 500 Worte, eingesetzt werden kann. Neben der Entwicklung von Sprachsignalverarbeitungsmethoden, die für Spracherkennung nützlich sind, liegt ein weiterer Fokus auf der Entwicklung robuster Merkmale, wie zum Beispiel einer auditorisch motivierten Feature Extraktion. Schließlich werden Methoden weiterentwickelt, die eine gezielte Einbeziehung von Unsicherheitsinformationen (unter anderem in Form von von geschätzten Störsignalvarianzen) aus der Vorverarbeitung in den Erkennungsprozeß erlauben, was sich vor allem für die Ankopplung von ICA-Resultaten an Spracherkennungssysteme als vorteilhaft erwiesen hat.

Arbeitsgruppe

Soundbeispiele

Recordings we made in a lab room (T60 = 300ms):

and the separation results sound as follows:

On the real room signals of the ICA99 Conference challenge the following results were obtained:

All results on this page were obtained with ICA + Time-Frequency-Masking as described in Nonlinear Postprocessing for Blind Speech Separation (PDF, 447,8 KB).

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe