Audiomining für Radiomacher oder: Warum Siri und Co. noch nicht richtig funktionieren

Eine Software „liest“ einen verschrifteten Radiobeitrag und findet im Audio die korrespondierende Stelle. Sie „hört“ sich das Audio an und vergibt selbsttätig Schlagworte und Ressorts für Redaktion und Archiv. Sie erkennt unterschiedliche Sprecher und fügt Audiotakes, etwa Anmoderation und Beitrag, zusammen. Dr. Daniel Stein vom Fraunhofer Institut in St. Augustin hat uns im Lab erklärt, was davon geht – und was nicht.

Dr. Daniel Stein ist Sprachtechnologiewissenschaftler. Er hat sich zum Ziel gesetzt, Sprecher- und Spracherkennung zu perfektionieren. Er arbeitet seit 2011 als Senior Scientist am Fraunhofer IAIS und beschäftigt sich dort mit der Analyse und Aufbereitung von multimodalen Daten, wobei der Schwerpunkt in der Sprachverarbeitung liegt. Er leitet seit einem Jahr das Big-Data/Datenjournalismus Projekt News-Stream 3.0 – das er auch in der DLF-Sendung „M arkt und Medien“ beschrieben hat.

Das Grundproblem: Wir produzieren Abertausende Audios und Texte, die für die redaktionelle Nutzung und Recherche – Audio- und Textpassagen eines O-Ton-Gebers beispielsweise – und für Archiv und Dokumentation von Hand aufbereitet werden müssen. Obwohl sie doch digital vorliegen.

Hier soll die Technik ansetzen. „Newsstream“ analysiert in einem hochkomplexen Analyse-Verfahren Texte und Audios. Stark vereinfacht: über Sprach-, Sprecher-, Silben-, Texterkennungs- und Tonfrequenzparameter sowie ausgeklügelte Filterfunktionen, um etwa Umgebungsgeräusche „herauszurechnen“. Audios können so in Textform gewandelt werden, Texte werden „gelesen“ – aber auch erst dann, wenn die Software „trainiert“ wurde. Durch Wörterbücher, Sprecheranalyse, usw.

Anwendungsfälle für Radiomacher könnten sein:

das automatische Verschriften von Radiobeiträgen
die automatische Verschlagwortung solcher Audios
eine automatische Ressorteinteilung des Themas
eine Erkennung, wann Angela Merkel oder David Cameron sprechen
und damit weitergehend: O-Töne zu einem Thema/Ressort von einer bestimmten Person aus dem riesigen Archiv in Sekundenschnelle zur Verfügung stellen. Etwa: „Was hat Angela Merkel im Januar zur Maut in Deutschland gesagt?“ Das Ergebnis wäre eine Liste von Textbeiträgen und Audios bzw. einzelne O-Töne zur Maut von Frau Merkel, die sofort weiterverarbeitet werden können.

So weit, so beeindruckend. Die Wahrheit jedoch ist: Auch die beste Software macht Fehler. Sprecher- und Spracherkennung sind schon weit. Aber wer jemals „Siri“ oder „Ok, Google“ oder Diktiersoftware zum automatischen Text-Erstellen genutzt hat, weiß, dass diese Systeme ausbaufähig sind.

Das ist auch bei Newsstream und dem Audiomining des Fraunhofer Instituts so. Dr. Stein prophezeit: Auch in zehn Jahren wird die Spracherkennung nicht perfekt funktionieren, auch wenn die Fehlerquote mittlerweile respektabel niedrig ist. Zu viele Probleme spielen eine Rolle, etwa:

die verwendete Hardware
Umgebungsgeräusche im Audio, also: Atmo
Dialekt des Sprechers
eine schlechte Handyverbindung
schlechte Aussprache oder eine Sprechbehinderung
mehrereSprecher gleichzeitig

„Kein Transkript ist perfekt“, sagt Daniel Stein – sieht aber genau das als Herausforderung. Audioerkennungssoftware kann Redaktionen und Archive unterstützen – nicht aber den Menschen ersetzen. Denn wir können über die nüchterne Analyse hinaus etwas, was die Maschine (noch?) nicht kann: eine Textpassage emotional und journalistisch einschätzen.

Vita Dr. Daniel Stein

Dr. Daniel Stein studierte von 1999-2005 Informatik an der RWTH Aachen, mit den Schwerpunkten Sprachtechnologie und Künstliche Intelligenz. Während seiner Promotion am Lehrstuhl für Mustererkennung und Sprachtechnologie in Aachen befasste er sich mit der statistisch-maschinellen Übersetzung natürlicher gesprochener Sprachen (Arabisch-Englisch, Chinesisch-Englisch) sowie gebärdeten Sprachen (Deutsche Gebärdensprache, Nederlandse Gebaarentaal).