Medizinische Physik

Einfluss sprachintrinsischer Variabilitäten auf die Spracherkennung von Mensch und Maschine, Dissertation von Bernd T. Meyer

Ziel dieser Arbeit ist die Verbesserung automatischer Spracherkennung, die im Vergleich zu zwischenmenschlicher Kommunikation auch heute noch relativ schlecht funktioniert. Während Menschen sich untereinander selbst dann noch verstehen können, wenn z.B. im selben Raum viele Gespräche gleichzeitig geführt werden, funktioniert die maschinelle Erkennung in akustisch schwierigen Situationen häufig gar nicht. Der Ansatz der Dissertation, der zur Verbesserung der automatischen Spracherkennung verfolgt wurde, war daher eine Orientierung an den Prinzipien, die dem menschlichen Gehör zur hervorragenden Leistung verhelfen.

Dazu wurde zunächst ein Vergleich der Spracherkennung von Mensch und Maschine durchgeführt, um festzustellen, bei welchen Erkennungsaufgaben die maschinelle Erkennung verbessert werden kann. Die Experimente wurden mit der Sprachdatenbank OLLO (dem Oldenburger Logatomkorpus) durchgeführt, die speziell für diesen Vergleich aufgenommen wurde. Dabei wurde insbesondere der Einfluss von intrinsischer Variabilität – also Faktoren wie Sprechgeschwindigkeit, -aufwand (laute oder leise Sprache), Dialekt und Akzent – untersucht.

Die Ergebnisse des Vergleichs belegen, dass Menschen vor allem zeitliche Merkmale, die in Sprache enthalten sind, sehr viel besser ausnutzen können als dies heutigen automatischen Erkennern möglich ist. Darum wurde im letzten Teil der Arbeit eine neue Art der Vorverarbeitung für die maschinelle Erkennung entwickelt und analysiert, bei der die zeitliche Information in Sprache stärker berücksichtigt wird. Mit dieser Vorverarbeitung wurden Verbesserungen sowohl für zahlreiche intrinsische Faktoren erzielt als auch für Sprache im Störgeräusch erzielt.

Link zur Arbeit

Bernd T. Meyer