Medizinische Physik

Spracherkennung und adaptive Signalmodellierung

Fragen, die wir uns stellen:

  • Wie kann von der akustischen Wellenform eines Sprachsignals auf den Inhalt der gesprochenen Sprache geschlossen werden?
  • Wie lässt sich bestimmen, in welcher Umgebung ein akustisches Signal aufgenommen wurde (Kathedrale, Cafe...), und welche Objekte in ihm repräsentiert sind (Sprache, Verkehrsgeräusche, Tierlaute, etc.)?
  • Wie ist es möglich, aus einem Gewirr von mehreren Stimmen und Hintergrundgeräuschen ein einzelnes Sprachsignal zu extrahieren, wenn nicht bekannt ist, wo sich die einzelnen Signalquellen befinden?
  • Lassen sich grundlegende Teile ("Atome'') finden, aus denen ein Sprachsignal zusammengesetzt ist?


Diesen Problemen liegt eine ähnliche Fragestellung zu Grunde, die formuliert werden kann als:
Wie kann Information aus gemessenen (akustischen) Signalen extrahiert werden, wenn keine fest vorgegeben Regeln existieren?
Statt einer fest vorgegebenen Funktion (wenn ..., dann ...) sind bei dieser Art von Problem also entweder  Beispiele von Daten und zugehörigen Ergebniswerten vorgegeben (überwachtes Lernen), oder es liegen abstrakte Ziele vor, die durch die Modellierung des Signale möglichst gut erfüllt werden soll (z.B. "unterschiedliche grundlegende Signalanteile sollen unabhängig voneinander auftreten'', unüberwachtes Lernen). Wir entwickeln Lösungen für diese Fragestellung im Bereich akustischer Signale und verwenden dazu Methoden aus den Bereichen Physik, Signalverarbeitung, Maschinelles Lernen und Neurobiologie.

Laufende Arbeiten umfassen folgende Themen:

  •  Phonemerkennung mit Support Vector Machines
  •  Erkennung akustischer Szenen und Ereignisse
  • Merkmalsextraktion für Sprach- und Audiosignale
  • Blinde Quellentrennung
  • Modellierung Neuronaler Signale

Laufendes Forschungsprojekt:

EU Projekt DIRAC ("Detection and Identification of Rare Audio-Visual Events'') beteiligt.
[link: http://www.diracproject.org]

Mitarbeiter:


Dr. Jörn Anemüller [link: www.anemueller.de]
Denny Schmidt
Hendrik Kayser
Daniel Visser

Ausgewählte Referenzen:


 J. Anemüller. Maximization of Component Disjointness: a Criterion for Blind Source Separation. 7th International Conference on Independent Component Analysis and Signal Separation, London, UK, 9 - 12 September 2007. Accepted for publication.

D. Schmidt and J. Anemüller. Acoustic Feature Selection for Speech Detection Based on Amplitude Modulation Spectrograms. Fortschritte der Akustik: DAGA 2007.

J. Anemüer, J.-R. Duann, T. J. Sejnowski and S. Makeig. Spatio-temporal dynamics in fMRI recordings revealed with complex independent component analysis. Neurocomputing, 69:1502-1512, 2006.

T. Wesker, B. Meyer, K. Wagener, J. Anemüer, A. Mertins and B. Kollmeier. Oldenburg logatome speech corpus (OLLO) for speech recognition experiments with humans and machines. Proceedings Interspeech 2005, pages 1273-1276. Lisbon, Portugal, September 2005.

J. Anemüller, T. J. Sejnowski, and S. Makeig. Complex independent component analysis of frequency-domain electroencephalographic data. Neural Networks, 16:1311-1323, 2003.

J. Anemüller and B. Kollmeier. Adaptive separation of acoustic sources for anechoic conditions: A constrained frequency domain approach. Speech Communication, 39(1-2):79-95, Jan 2003.  

J. Anemüller and B. Kollmeier. Amplitude modulation decorrelation for convolutive blind source separation. In Petteri Pajunen and Juha Karhunen, editors, Proceedings of the second international workshop on independent component analysis and blind signal separation, pages 215-220, Helsinki, Finland, 2000.