Allgemein, Radio, Technik
Dr. Daniel Stein im Funkhaus Köln.
Dr. Daniel Stein im Funkhaus Köln.
05.10.2015

Audiomining für Radiomacher oder: Warum Siri und Co. noch nicht richtig funktionieren

Von

Eine Software „liest“ einen verschrifteten Radiobeitrag und findet im  Audio die korrespondierende Stelle. Sie „hört“ sich das Audio an und vergibt selbsttätig Schlagworte und Ressorts für Redaktion und Archiv. Sie erkennt unterschiedliche Sprecher und fügt Audiotakes, etwa Anmoderation und Beitrag, zusammen. Dr. Daniel Stein vom Fraunhofer Institut in St. Augustin hat uns im Lab erklärt, was davon geht – und was nicht.

Dr. Daniel Stein ist Sprachtechnologiewissenschaftler. Er hat sich zum Ziel gesetzt, Sprecher- und Spracherkennung zu perfektionieren. Er arbeitet seit 2011 als Senior Scientist am Fraunhofer IAIS und beschäftigt sich dort mit der Analyse und Aufbereitung von multimodalen Daten, wobei der Schwerpunkt in der Sprachverarbeitung liegt. Er leitet seit einem Jahr das Big-Data/Datenjournalismus Projekt News-Stream 3.0 – das er auch in der  DLF-Sendung „Markt und Medien“ beschrieben hat.

Das Grundproblem: Wir produzieren Abertausende Audios und Texte, die für die redaktionelle Nutzung und Recherche – Audio- und Textpassagen eines O-Ton-Gebers beispielsweise – und für Archiv und Dokumentation von Hand aufbereitet werden müssen. Obwohl sie doch digital vorliegen.

Hier soll die Technik ansetzen. „Newsstream“ analysiert in einem hochkomplexen Analyse-Verfahren Texte und Audios. Stark vereinfacht: über Sprach-, Sprecher-, Silben-, Texterkennungs- und Tonfrequenzparameter sowie ausgeklügelte Filterfunktionen, um etwa Umgebungsgeräusche „herauszurechnen“. Audios können so in Textform gewandelt werden, Texte werden „gelesen“ – aber auch erst dann, wenn die Software „trainiert“ wurde. Durch Wörterbücher, Sprecheranalyse, usw.

Anwendungsfälle für Radiomacher könnten sein:

 

  • das automatische Verschriften von Radiobeiträgen
  • die automatische Verschlagwortung solcher Audios
  • eine automatische Ressorteinteilung des Themas
  • eine Erkennung, wann Angela Merkel oder David Cameron sprechen
  • und damit weitergehend: O-Töne zu einem Thema/Ressort von einer bestimmten Person aus dem riesigen Archiv in Sekundenschnelle zur Verfügung stellen. Etwa: „Was hat Angela Merkel im Januar zur Maut in Deutschland gesagt?“ Das Ergebnis wäre eine Liste von Textbeiträgen und Audios bzw. einzelne O-Töne zur Maut von Frau Merkel, die sofort weiterverarbeitet werden können.

So weit, so beeindruckend. Die Wahrheit jedoch ist: Auch die beste Software macht Fehler. Sprecher- und Spracherkennung sind schon weit. Aber wer jemals „Siri“ oder „Ok, Google“ oder Diktiersoftware zum automatischen Text-Erstellen genutzt hat, weiß, dass diese Systeme ausbaufähig sind.

Das ist auch bei Newsstream und dem Audiomining des Fraunhofer Instituts so. Dr. Stein prophezeit: Auch in zehn Jahren wird die Spracherkennung nicht perfekt funktionieren, auch wenn die Fehlerquote mittlerweile respektabel niedrig ist. Zu viele Probleme spielen eine Rolle, etwa:

  • die verwendete Hardware
  • Umgebungsgeräusche im Audio, also: Atmo
  • Dialekt des Sprechers
  • eine schlechte Handyverbindung
  • schlechte Aussprache oder eine Sprechbehinderung
  • mehrereSprecher gleichzeitig

„Kein Transkript ist perfekt“, sagt Daniel Stein – sieht aber genau das als Herausforderung. Audioerkennungssoftware kann Redaktionen und Archive unterstützen – nicht aber den Menschen ersetzen. Denn wir können über die nüchterne Analyse hinaus etwas, was die Maschine (noch?) nicht kann: eine Textpassage emotional und journalistisch einschätzen.


stein_2014Vita Dr. Daniel Stein

Dr. Daniel Stein studierte von 1999-2005 Informatik an der RWTH Aachen, mit den Schwerpunkten Sprachtechnologie und Künstliche Intelligenz. Während seiner Promotion am Lehrstuhl für Mustererkennung und Sprachtechnologie in Aachen befasste er sich mit der statistisch-maschinellen Übersetzung natürlicher gesprochener Sprachen (Arabisch-Englisch, Chinesisch-Englisch) sowie gebärdeten Sprachen (Deutsche Gebärdensprache, Nederlandse Gebaarentaal).