Malte Kosub macht mit seinem Unternehmen plattformübergreifende Spracherlebnisse möglich. Wir haben mit dem Voice Experten, der mit seiner Agentur von Amazon mehrfach zum Alexa Champion ausgezeichnet wurde, über Smart Speaker, die Entwicklung der Technologie und über die Voice Formel gesprochen.
Malte ist ein sympathischer Kerl, der sich schon früh ehrenamtlich engagiert hat. Zu Beginn seiner Laufbahn hat er mit „Talented“ Deutschlands größten Musikwettbewerb für Schulen ins Leben gerufen. Eine Idee, die nicht nur gut ankam, sondern ihm auch eine Auszeichnung des Bundeswirtschaftsministeriums bescherte. Wer das liest würde kaum annehmen, dass sich der Wahl-Berliner mittlerweile mit einem vermeintlich emotionslosen Thema beschäftigt: Malte ist Experte für „automatisierte Kundenkommunikation“ und macht plattformübergreifende Spracherlebnisse möglich.
Lieber Malte, die Branche spricht beim Thema „Voice“ oft von einem neuen Zeitalter. Sprachassistenten wie Siri gibt es aber schon seit zehn Jahren. Was ist heute anders?
Malte Kosub: Die Technologie. Maschinell lernende Algorithmen haben statistische Verfahren abgelöst: Das hat dazu geführt, dass wir seit 2011/2012 beispielsweise einen immer schneller werdenden Anstieg der Erkennungsraten von Sprache beobachten. Wir sind heute einfach nochmal auf einem ganz anderen Level und können die Kommunikation mit Sprachassistenten immer besser weiterentwickeln.
Was können Sprachassistenten heute gut und wofür eignen sie sich dagegen weniger? Was glaubst du, wird sich auf lange Sicht durchsetzen?
Im Moment sind es einfach kurze Interaktionen, kurze Anfragen, bei denen kein langer Dialog passiert und keine Infos auf Screens geworfen werden (ich klammere Spiele über Sprachassistenten hier mal aus). Das wird sich aber bald ändern, weil die Anwendungsszenarien immer multimodaler werden. Vereinfacht gesagt heißt das so viel wie: Voice ist das Interface, über das ein Befehl gegeben wird. Das Ergebnis – das visuelle Feedback – wird dem User am TV oder auf dem Smartphone ausgespielt. Wenn sich solche Anwendungsfälle etablieren, sind dem Ganzen quasi keine Grenzen gesetzt. Der Sprachbefehl ist im Grunde die neue Tastatur, über die alles ein bisschen schneller geht. Deshalb würde ich grundsätzlich unterscheiden zwischen: Aktuell – schnelle und einfache Abfragen. Später – viel, viel mehr und neue Möglichkeiten.
Also liegt der Schlüssel eher im Zusammenspiel zwischen Stimme und Bild sowie der Interaktion zwischen verschiedenen Medien?
Für anspruchsvolle Anwendungsfälle, ja. Wann immer es kompliziert wird und ich ein visuelles Feedback brauche, könnte es heißen: „Alexa, schick mir dazu die aktuellen Infos/Angebote auf mein Smartphone“. Zum Beispiel, wenn es ums Shoppen geht. Wer sich in Sachen Fashion inspirieren lassen möchte, will die Dinge sehen. Hier bietet der Google Assistant mit seiner sehr guten Chat-Integration ins Smartphone bereits eine extrem gute Grundlage.
Du sprichst in diesem Zusammenhang von der „Voice Formel“. Kannst du sie erläutern?
Klar – die Voice-Formel lautet „Mehrwert für den Kunden“ geteilt durch „Komplexität“ mal der „Nutzungshäufigkeit“ mal dem „Vermarktungspotenzial“.
Beim „Mehrwert“ ist es wichtig, ob ich eine Funktion schneller, einfacher und natürlicher über Voice darstellen kann: „Alexa, schreib‘ mir Milch auf meine Einkaufsliste“. Wenn das funktioniert und ich hier einen hohen Mehrwert habe, teile ich das durch die Komplexität. Je höher der Mehrwert und je geringer die Komplexität, desto besser ist das Potenzial. Damit einher geht eine hohe Nutzungshäufigkeit, die ich als Anbieter identifizieren muss. Und wenn ich es darüber hinaus noch schaffe, die Sprachanwendung an meine Kunden zu vermarkten – ihnen also zu erzählen, wie sie mit den Anwendungen umzugehen haben – habe ich eine gute Voraussetzung geschaffen.
Glaubst du, dass wir in ferner Zukunft wirklich tiefgehende Diskussionen mit Maschinen führen können?
Die Diskussionen beziehungsweise Dialoge mit Sprachassistenten werden durch die Anreicherung mit dem richtigen Kontext und den passenden persönlichen Daten sicherlich immer anspruchsvoller. Wann wir allerdings tiefgehende philosophische Diskussionen mit einem Sprachassistenten machen können, ist schwer vorauszusehen. Da sollten wir in 20 bis 30 Jahren noch mal drüber sprechen. Wer weiß – das heutige exponentielle Wachstum der Technologien ist so rasant, dass niemand verlässlich vorhersagen kann, wann was eintreffen wird. Wer hätte vor zwanzig Jahren geahnt, wo wir heute stehen…
Kommen wir zurück in die Gegenwart. Warum sind die Skills oder Actions von Amazon, Google und Co. vor allem fürs Publishing und Marketing so interessant?
Im Moment sind wir bei den Skills primär im Content Marketing unterwegs. Wir versuchen gute Inhalte, die der Nutzer täglich konsumiert, an den Mann oder die Frau zu bringen. Wir nennen das „Next Level Content Marketing“, weil wir die Sprachsteuerung tatsächlich in den Alltag der Nutzer integrieren. Alles was mit Commerce und Support zu tun hat, ist sicherlich schon zum Teil machbar, aber kein Massenanwendungsfall. Das ist beim Content Marketing etwas anderes, weil es bereits Millionen Nutzer und auch Anwendungsfälle gibt. Eigentlich ist das gar nicht so neu. Bei Medieninhalten, die täglich genutzt werden, liegt die große Chance für Publisher. Aber man muss ein bisschen unterscheiden: Audiogetriebene Publisher, also Radiosender, haben einen großen Vorteil, weil sie Audio von der Pike auf gelernt haben. Klassische Verlage müssen sich also Gedanken machen, wie sie in dieser sehr audiogetriebenen Welt bestmöglichen Content liefern.