Medizinische Physik

"Robustness of spectro-temporal features against intrinsic and extrinsic variations in automatic speech recognition",

Meyer, B.T., Brand, T., and Kollmeier, B.
Speech Communication (Special issue on Statistical and Perceptual Audition)

Ziel dieser Arbeit ist es, die Robustheit automatischer Spracherkennungssysteme (engl. automatic speech recognition, ASR) zu evaluieren und zu verbessern. Messergebnisse aus der Physiologie legen nahe, dass im auditorischen System eine Detektion von Mustern stattfindet, die in Zeit und Frequenz ausgedehnt sind. Daher wird in dieser Arbeit eine so genannte spektro-temporale Vorverarbeitung durchgeführt. Diese neue Art der Vorverarbeitung führt - im Vergleich zur konventionellen Vorverarbeitung - zu verbesserten Erkennungsraten im Störgeräusch. Während die Standardvorverarbeitung besser geeignet ist, um besonders langsam und schnell gesprochene Äußerungen zu erkennen, können mit den neuen Merkmalen insbesondere laut und leise gesprochene Worte besser erkannt werden.

Meyer, B.T. and Kollmeier, B. (2010), "Robustness of spectro-temporal features against intrinsic and extrinsic variations in automatic speech recognition", Speech Communication (Special issue on Statistical and Perceptual Audition), in press. [url]