Allgemein, Apps, Technik, Zukunft der Medien
Der Amazon Echo Dot ist ein Lautsprecher, der auf den Namen "Alexa" hört und als Sprach-Schnittstelle zu Amazon-Produkten fungiert. Über den Amazon Echo Dot lassen sich Waren bestellen und Geräte im Haushalt steuern. Foto: M. C. Hurek | Verwendung weltweit
28.07.2017

„Alexa, spiele den Deutschlandfunk“: Herausforderungen sprachgesteuerter Systeme

Von

Alexa, Now, Siri, Cortana: Die großen Tech-Konzerne drängen mit digitalen Assistenten in die Wohnzimmer der Anwender. Sie versprechen nicht weniger als das nächste große Ding in Sachen digitalem Lifestyle und eine völlig neue Form der Mensch-Maschine-Interaktion. Der ARD-Workshop „Guck mal wer da spricht – Die Kommunikation zwischen Mensch und Maschine“ hat sich mit den kleinen intelligenten Geräten für zu Hause näher beschäftigt.

Welche Lösungen gibt es und wie können die Rundfunkanbieter davon profitieren?

Noch sind die in Deutschland erhältlichen Systeme überschaubar. Dennoch: Um zu entscheiden, welches Ökosystem man als Rundfunkanstalt bedienen will, muss man sich die digitalen Assistenten genauer anschauen. Die Unternehmensberatung diva-e hat zusammen mit der HTW Aalen eine vergleichende Analyse veröffentlicht. Dabei haben die Wissenschaftler versucht zu ermitteln, welches System die Bedürfnisse der UserInnen am Besten erfüllen kann. Amazons Alexa schneidet in den getesteten Kategorien (Hilfestellung, Empfehlungen, Lexikon, Kaufassistenz, Intelligenz) als bestes Produkt ab, knapp gefolgt von Google Now, Apple Siri und mit etwas Abstand Microsoft Cortana.

Studie: diva-e und Hochschule Aalen analysieren Siri, Alexa, Now und Cortana

Neben den qualitativen Ergebnissen sind die Verkaufszahlen relevant um sich für oder gegen eine Plattform zu entscheiden. Zwar halten sich die Anbieter mit solchen Zahlen auffallend zurück, doch lässt sich mit Blick auf den US-amerikanischen Markt sagen, dass Amazon mit Alexa auch hierzulande Marktführer ist, zumal der Internethändler als einer der ersten den deutschen Markt erschlossen hat.

Google wird im August, mehr als sechs Monate nach Amazon, mit einem vergleichbaren Gerät auf den heimischen Markt kommen. Die Samsung Tochter Harman Kardon hat einen auf Microsoft Cortana basierenden Lautsprecher für Herbst angekündigt und Apple seinen HomePod für Ende des Jahres. Beide sollen erst einmal nur für den US-Markt verfügbar sein, weitere Länder sollen jedoch 2018 folgen.

Für den öffentlich-rechtlichen Hörfunk kann sich ein frühes Dabeisein durchaus lohnen, denn die professionell produzierten Audioformate gehören zur Kernkompetenz und können relativ einfach auf die Plattformen gebracht werden. Hier besteht ein Wettbewerbsvorteil gegenüber anderen Medienanbietern, da die Inhalte bereits vorliegen. Besonders die Möglichkeit der täglichen Nachrichtenzusammenfassung, bei Amazon „Flash Briefing“ genannt, lässt sich leicht umsetzen.

Etwas schwieriger ist die Entwicklung sogenannter „Custom Skills“ (so heißen die Apps für Alexa), die mit einem eigenen Voice Interface ausgestattet sind und Inhalte jenseits der Nachrichten zur Verfügung stellen. Man muss sich hier insbesondere an die „Alexa policy guidelines“ halten und ein „Voice interface“ designen, dass den „User experience tests“ von Amazon standhält. Insbesondere das Designen des Voice Interfaces mit dem dahinter liegenden „Interaction Model“ stellt Anbieter vor neue Herausforderungen. Erfahrungen mit dem Design von grafischen Benutzerschnittstellen lassen sich nämlich nicht einfach übertragen. Gerade bei komplexeren Sprachbefehlen muss man Varianten berücksichtigen, um dem Nutzer später Frust zu ersparen, wenn Alexa nicht das tut, was er erwartet, nur weil er die Phrase nicht exakt so gesprochen hat, wie die Entwickler es vorgesehen hatten.

Wenn man einen User durch ein „akustisches Menü“ führt, muss man beispielsweise berücksichtigen, dass man nicht zu viel Info übermittelt. Der User kann sich das dann nicht merken und verliert den Überblick. Wichtig ist auch, dass der User nicht wiederholt dieselbe Info bekommt. Bei grafischen Oberflächen ist redundante Information kein Problem, weil sie sich überlesen lässt. Akustisch geht das nicht. Hier ist unser Deutschlandfunk-Skill noch nicht optimal – wir arbeiten daran.

Fazit und Ausblick

Auch wenn smarte Lautsprecher noch kein Massenphänomen sind, sollte dieser Verbreitungsweg nicht unterschätzt werden. Ob es das „next big thing“ wird, lässt sich noch nicht sagen, aber schon heute geben 50% der befragten 18-35jährigen an (Quelle: statista.de), dass sie stimmgesteuerte Assistenten nutzen. Die Mensch-Maschine-Interaktion mittels Sprache gilt vielen – auch Älteren – als das natürlichere Interaktionsmittel im Vergleich zu oft als kompliziert empfundenen Menüführungen. Da Amazon, Google und Microsoft ihre Technologien an Lautsprecherhersteller lizenzieren, wird sich der Markt ausdifferenzieren und das Marktsegment weiter wachsen. Und die eigenen vier Wände sind nur der Anfang. Denn überall dort, wo Menschen ihre Hände gerade nicht für die Bedienung eines Smartphones einsetzen können, wie beispielsweise im Auto, wird die Sprachsteuerung enorme Erleichterungen bringen. Zeit also, sich mit nicht-visuellen Interfaces zu beschäftigen und Lösungen zu entwickeln, die unsere User und Userinnen schätzen und bei ihrer Rezeption unterstützen.