Gastbeitrag: Digitale Sprachassistenten und das Marketing (der Absichten)

Seit Amazon Anfang 2017 mit dem digitalen Sprachassistentendienst „Alexa“ in Deutschland eine Werbeoffensive gestartet hat, nimmt die Verwendung der Stimme im deutschsprachigen Raum in der Kommunikation mit Maschinen rasant zu. Dabei explodiert vor allem der Markt für Smart Home und entsprechende Gadgets, die sich per Sprache steuern lassen, so das „Smart Home“ im Grunde die aktuelle Killer-Anwendung für digitale Sprachassistenten ist, auch wenn das viele Entwickler nicht gerne hören und viele smarte Lautsprecher, wie der Amazon Echo, wegen noch oft fehlender Smartheit trotzdem ungenutzt einstauben.

Auch wenn die Systeme schon sehr natürlich klingen, befindet sich die Entwicklung nach wie vor an Tag 1. Und besonders Smartheit und Intelligenz brauchen nun mal Zeit, um entwickelt zu werden. Seit ihrem Auftauchen am Markt können die Systeme zwar jetzt schon vieles mehr, aber kaum etwas wirklich besser. Trotzdem sind diese „persönlichen virtuellen Assistenten, die Sprechen können“ hochattraktiv für den Nutzer und damit auch für Unternehmen und Marken ein Kanal, den es zu bespielen gilt um am Puls des Nutzers zu bleiben.

Die Frage, ob das Marktsegment „Smart Voice“ ein Ökosystem an entsprechenden Geräten ist, stellt sich dabei nicht, da quasi kaum ein Gerät oder ein Anwendungsfall die Nutzung der Stimme zur Kommunikation mit ihm bedingt. Es zeigt sich aber, dass die meisten Anwendungsfälle mehr „multimodal“ (z.B. in Kombination mit Bildschirm) optimal gestaltet sind und weniger „Voice Only“.

Digitale Sprachassistenten sind auf Basis der Stimme hochgradig natürlich, barrierefrei, intuitiv und vor allem emotional und situativ und werden schon bald andere Bedien-, Steuer- und Interaktionsmethoden mit Maschinen auch in ihrer Nutzung überholen. Sie werden schon heute und auch in Zukunft noch viel mehr in allen möglichen Geräten (=Touchpoints) verbaut sein. Vom Toaster bis zum Türschloss eröffnet sich damit auch dem Marketing eine riesige Welt an Touchpoints.

Nebenbemerkung: Das Marktsegment der virtuellen sprechenden Assistenten jetzt einfach nur als „Voice“ zu beschreiben wird der Sache nicht gerecht und ist im Grunde sogar falsch, da Voice Dienstleistungen und Geräte traditionell in der Telekommunikation oder der Stimmbildung verankert sind und nicht in der virtuellen Assistenz. Weil die digitalen Sprachassistenten die Stimme des Menschen erweitern / leistungsfähiger machen (=smarter machen), müsste es also eher wie auch bei „Smart Home“, dann auch „Smart Voice“ heißen, um bei den Leisten zu bleiben.

Der zweite Schritt vor dem Ersten

Aktuell nehmen immer mehr Unternehmen und Agenturen digitale Sprachassistenten auf die Agenda und es entstehen neue Unternehmen. Auch gibt es inzwischen zahlreiche Veranstaltungen und Informationen zum Design und der Programmierung von digitalen Sprachassistenten. „Voice First“ heißt die Devise und Designrichtlinie. Wie so oft treiben auch diesmal die Nerds, Geeks, Programmierer und Kreativen ein Marktsegment als erstes an, bevor es dann groß wird. Auch hier geschieht wieder die nicht so ganz richtige Entwicklung, wie z.B. auch bei der Entwicklung des Internets selbst, der Digitalisierung oder auch hin zu Mobile First. Es werden Projekte umgesetzt, die den zweiten Schritt vor dem Ersten machen. So erlernen die Unternehmen zwar das Design und die Programmierung der Systeme, haben die Wirkungen und Eigenschaften von Smart Voice, Voice First und Digitalen Sprachassistenten aber nicht verstanden.

Doch genau diese Eigenschaften, Wirkungen und Funktionsweisen gilt es als aller, aller, aller, aller, aller…… Erstes zu verstehen, weil die Budgets sonst wieder nur verbrannt sind und die Entwicklungen nicht nur ziellos, sondern auch noch schlecht sind. Ein Selbsttest mit den aktuellen Sprachassistenten oder ein Blick in die Skill- / Action-Kataloge der digitalen Sprachassistenten beweist dies eindrucksvoll.

Wer als Unternehmen oder Marke in Smart Voice intelligent/effizient agieren will, muss zwingend einen Schritt zurück machen und vor allem neue Sichtweisen und Ideen aufgreifen anstatt einfach nur vorhandenes Wissen zu übertragen. Das Zusammenspiel von Stimme, Gehör und auch Bildschirm funktioniert gänzlich anders, als die über die letzten Dekaden gelernte Ansprache der Nutzer über graphische Nutzeroberfläche mit Bildschirm, Tastatur, Maus und Touchpad. Dies gilt auch insbesondere im Marketing. Ein Schritt zurück ist nötig, um die qualitativ hervorragenden Möglichkeiten von Smart Voice, die bisher kein technischer Kanal zum Nutzer bieten konnte, effizient zu nutzen.

Was wir lernen müssen!

Gehör und Stimme ist der emotionalste Kommunikationskanal den der Mensch hat. Dabei sind diese Sinnesorgane jedoch bis zu 100 Mal langsamer als das Auge. Während das Auge quasi parallel mehrere Bilder an Information aufnehmen kann, kann das Ohr nicht mehrere Worte gleichzeitig hören oder gar die Stimme mehrere Worte gleichzeitig sprechen. Die erste Wahrnehmung, die ein Mensch macht ist das Gehörte im Mutterbauch. Wir vertrauen dem Gehör und der Stimme mehr, als jedem anderen Sinnesorgan. Aus diesem Grund heißt es im Volksmund z.B. ja auch „Sag mir die Wahrheit“ und nicht „Zeig mir die Wahrheit!“. Selbst kleinste Veränderungen und Nuancen des Gesprochenen und Gehörten können gänzlich andere Kontexte und Sinnhaftigkeiten ergeben. Dies bedeutet schlicht, dass man bei der Gestaltung dieses Kanals mit höchster Feinfühligkeit vorgehen muss und z.B. auch regionale Eigenarten, wie Dialekte beachten muss, da der Nutzer entsprechender Patzer sonst sofort und hart abstraft. Es bedeutet aber auch, dass Unternehmen und Marken die es schaffen diesen Kanal entsprechend zu gestalten, ein großes Vertrauen vom Nutzer erhalten, was eine äußerst langfristige Bindung des Nutzers an das Unternehmen und Marke ergibt. Pures Gold also! Daher ist ….

…die Veränderung hin zu Smart Voice ein Shift des „Vertrauens“!

Sprechbarkeit

Die Stimme kann ohne die Hinzunahme weiterer Medien (Multimodalität) wie z.B. dem Bildschirm, die zu übertragenden Informationen oft nicht so effizient transportieren, wie es vielleicht nötig wäre. Wie beschreibt man also ein Bild, einen Ton, eine Farbe oder eine Form, ohne einen Bildschirm zu haben? Ein jeder Mensch wird aus einer rein tonalen Beschreibung ein anderes Bild im Kopf haben und nie die Wirklichkeit. Die Informationen müssen derart aufbereitet werden, dass sie „sprechbar“ werden. Und ja…

Jegliche Medien, Prozesse und Inhalte die aktuell existieren, sind nicht sprechbar!

Dies bedeutet schlicht, dass die Unternehmen neben den Wirkungen und Eigenschaften auch erst mal eine Sprechbarkeit der Prozesse und Inhalte herstellen müssen. Denn ohne dies versagt alles andere.

Sprechbarkeit bedeutet die Anpassung und Reduzierung der Inhalte auf die Eigenschaften und Regeln des Gehörs und der Stimme und damit auch die Einschränkung des Umfangs der Information. Aus einer bisher gerne servierten „großen Auswahl“ an Informationen (Liste) wir so die „optimalste Information“ (=Punkt der Erfüllung) und der Sprachassistent natürlich auch zum Gatekeeper. Kurz darüber sinniert ergibt sich schnell eine enge Verwandtschaft zu den viel diskutierten Featured Snippets / Position Zero der Suchmaschinen, was nichts anderes ist als der besagte „Punkt der Erfüllung“ und der Sprechbarmachung des gesamten Internets. Dem folgend z.B. auch die Fraggles Theorie von Cindy Krum und ebenso die immer mehr direkt auf den Google Ergebnisseiten zu findenden Auswahllisten für Fragen & Antworten und viele weitere Hiwneise darauf, dass Sprechbarkeit und damit die Bewertung von Informationen und nicht von Seiten oder Internetadressen den Vorrang erhält.

Mit Absicht…

Ein hoher Grad an Personalisierung ist für eine Zufriedenheit des Nutzers unabdingbar. Dies bedingt natürlich wiederum das Anhäufen von umfangreichen Erfahrungsdaten (Predictive Analytics), die entsprechend ausgewertet werden wollen, um die Absichten der Nutzer möglichst genau zu kennen und zu erraten.

Absichten! So spricht, denkt und handelt der Mensch.

Die „Persona“ die das Marketing braucht, um Maßnahmen zur Zielerreichung gestalten, ergibt sich aus dem Nutzer (= Wer) der jede Sekunde seines Lebens nach Ausgleich sucht und aus seiner aktuellen „Situation“ (= Wann und Wo) und im Falle der Sprachassistenten auch seiner Mentalität (=Mind Set) eine Absicht formt, die er dann äußert und natürlich auch umsetzen möchte, um sich auszugleichen.

Dies entspricht nichts anderem als dem Ansatz des „Intent Marketings“ welches genau die feinere Form des Content Marketings ist, die nicht nur durch die Nutzung von digitalen Sprachassistenten antrieben wird, sondern auch definitiv mit dem Erfolg von Smart Voice auch immer wichtiger wird. Die Absicht > der Intent > Intent Marketing!

Wer + Wann + Wo + Mentalität (=Persona) > Absicht (=engl. Intent)

Es geht also nicht mehr nur darum zu wissen wer der Nutzer ist, sondern auch was er will und diese Absicht nicht nur zu erkennen, sondern auch erledigen (..zu lassen). Nichts anderes hat z.B. auch Sundar Pinchai, der CEO von Google auf der letzten Google IO 2019 bereits am Anfang seiner Keynote gesagt und gar mitgeteilt, dass er das gesamte Unternehmen dahingehend umstellen wird.

„Moving from help you find things to help you get things done!“

Aus Informationen werden also Aktionen und wer, wenn nicht “der persönliche virtuelle Assistent der sprechen kann” könnte damit gemeint sein? Dem folgend hat Google, genau wie 2018, auch 2019 wieder eine große Menge an Entwicklungen vorgestellt, die genau dem Folge leisten. So auch die schon seit längerem andauernde Entwicklung der Suchmaschine, weg vom Bewerten von Internetadressen und Seiten, hin zum Bewerten von Informationen und Kontext. Also auch genau dem, was virtuelle, sprechende Assistenten bedingen und bewirken.

Berührungspunkte und alter Wein in neuen Schläuchen

Besonders das Marketing hat sich über die Jahre aus dem recht breiten Banner- und Email- Holzhammermarketing hin zu Social-Media, Suchmaschinenoptimierung und dem Content Marketing entwickelt und dabei hochwertige, aber auch komplexe und sensible Produkte aufgebaut, die fast ein jedes werbendes Unternehmen mehr oder weniger auch einsetzt. Entsprechend liegt der Fokus des Marketings auch stark in den entsprechenden Erfahrungen der letzten Dekaden wie z.B. der Suchmaschinenoptimierung und neigt damit logischerweise dazu diese Erfahrungen und Definitionen nun auch in den Kanal Smart Voice mit hineinzudenken und zu konzipieren. Doch genau dies funktioniert nur bedingt bis gar nicht, da Smart Voice und damit auch die Suche darin nun mal „etwas anderes ist“ als das bisher gelernte.

Entsprechend gehen viele Agenturen und Berater einher, abstrahieren z.B. die Google Suche per Stimme (=Voice Search) auf den Browser als Berührungspunkt und setzen dies mit dem digitalen Sprachassistenten gleich, was es aber definitiv nicht ist. Verständlich, denn wer hätte auch jemals gedacht, dass der Nutzer mal anfängt mit Toastern, Kaffeemaschinen, Autos oder Fernsehern als Berührungspunkt in einem Dialog zu redet und ins Internet geht, um seine situativen Absichten zu erledigen? Und dann auch noch vielleicht gänzlich ohne Bildschirm? Ein Nutzer am Toaster hat sehr wahrscheinlich andere Absichten als ein Nutzer mit dem Smartphone in der S-Bahn.

Eine Spracheingabe in den Google Suchschlitz hat zwar eine natürlichere Form als die Eingabe von Schlagworten per Tastatur, wird aber aktuell noch genauso von Google gerankt und ausgewertet wie alle anderen Eingaben auch, und nicht hinsichtlich der Eigenschaften der Stimme. Auch das inzwischen bekannte Speakable-Markup bei schema beeinflusst das Suchergebnis bisher in keinster Weise und wird lediglich von einigen Screenreadern ausgewertet. Der Grund dafür liegt schlicht in der Tatsache, dass die Anbieter von Sprachassistenzsystemen selbst noch nicht wissen was Sprechbarkeit von Inhalten überhaupt ist und wie diese zu bewerten sind. Womit man zum mehr als logischen Schluss kommt, dass es aktuell bewertete/gerankte Suchergebnisse auf Basis der Eigenschaften der Stimme (noch) nicht gibt. Auch die von Google Ende 2017 verfassten „Evaluation of Speech Guidelines“, sind in keinster Weise ausreichend um natürliche gesprochene Sprache aufzulösen und vor allem zu bewerten. Es bräuchte eher ein ganzes Kompendium und eine eigene Markupsprache, um in die Nähe einer Bewertungsmachbarkeit zu kommen. Womit „Voice Search“ aktuell ein Märchen ist, egal was geschrieben und erzählt wird. Zumindest dann, wenn der Touchpoint der Browsers ist!

Mit Absicht die Zweite

Die Wahrheit einer möglichen und richtigeren Bewertung von Sprache und damit eine echte „Voice Search“ liegen auch hier wieder in ihrer Eigenschaft auf menschlichen Absichten (Intents) zu basieren. So hat dann auch Amazon mit Alexa das getan, was Google niemals einfallen würde und Rankingfaktoren für die Intents von Alexa veröffentlicht. Folgerichtig müsste Voice Search auch eigentlich „Intent Search“ heißen, denn das ist die Kerneigenschaft von Sprache und Nutzer die bewertet werden will. Und ja, das Marketing muss über den Smart Voice Kanal vor allem…

die Absicht des Nutzers erfüllen…

und dies in so persönlicher und emotionaler Form wie nur möglich, um als „Punkt der Erfüllung“ beim Nutzer für eine lange Zeit und intrinsisch motiviert zu landen. Nur dies ist und kann der wichtigste und primäre Ansatz sein, um den Smart Voice Kanal über den Anwendungsfall einer Informationssuche effizient zu bevölkern.

Maßnahmen wie z.B. eine Brand Voice (Voice Brand), gehören dabei in die nachgelagerte Liste, der auf jeden Fall nötigen Aufgaben, um Marken an den Nutzer zu kommunizieren und eine Wiederkennung zu erzeugen. Letztendlich kann eine Brand Voice bzw. ein Voice Brand aber eh nur dann die nötige Arbeit zur Kundenbindung tun, wenn der Nutzer der Marke bereits vorher irgendwo oder irgendwie begegnet ist. Noch heute kennt jeder die Stimme von „Alles außer Tiernahrung!“. Wenn dieser Erstkontakt nicht außerhalb des Smart Voice Kanals stattgefunden hat, dann muss er über den entsprechenden Intent im digitalen Sprachassistenten stattfinden. Genau das ist nicht nur die Veränderung / der Shift und das primär zu Erlernende, sondern auch eine neue Denk- und Gestaltungsweise auf die sich viel bisher gelerntes aus der Bildschirmära mitnehmen lässt, vieles aber eben auch nicht. Der Linguist des Vertrauens kann darüber ein Lied singen, ebenso wie es der Beruf des Voice-User-Interface Designers können wird.

Das Marketing, das Online Marketing, das Content Marketing hat eine kleine Schwester Names Intent Marketing, welche noch Erwachsen werden und viel lernen muss, jedoch sehr, sehr schnell Erwachsen wird. Zuviel Zeit mit Kinderfotos dürfen sich die Unternehmen also nicht lassen, da schon jetzt erste Vermarkter von Umsatzverlusten sprechen deren Ursache nicht so wirklich klar ist, aber durchaus auf die Wirkungen der digitalen Sprachassistenten zurückzuführen sind, weil z.B. Schlagworte nun mal einfach nicht Sprache, Stimme und Gehör sind, sondern eine baldige formale Vergangenheit.

Kleines Fazit

Erst verstehen, dann machen! Design, Programmierung, Voice Search und Voice Brands sind NICHT die primären Aufgaben für ein Marketing über den Kanal des digitalen Sprachassistenten.

Primäre Aufgaben sind das Öffnen des Kopfes, die Umstellung der Denkweise hin zur Nutzerabsicht und das Verstehen der Eigenschaften und Wirkungen der Smart Voice Entwicklung. Schließlich ist es ja auch wenig förderlich z.B. ein Auto fahren oder bauen zu können, ohne Wissen wozu es dient oder ohne die Verkehrsregeln zu kennen. Hm!?

Über den Autor:

Dipl.Inf.FH Robert C. Mendez (1968, Spanien) ist Teil der Ideenfabrik „Internet of Voice“ für virtuelle Assistenz aus Köln. Als erfahrener Digitalist hat er große und kleine Projekte In Marketing, Design und Technik, aus verschiedensten Marktsegmenten federführend realisiert. Nicht zuletzt z.B auch die Auswertung von Musik und Künstlern über das Internet und Out-of-home Medien. Digitale Sprachassistenten sind seit 2016 seine einzige Leidenschaft, ist seitdem als gefragter Evangelist, Redner und Autor unterwegs und entwickelt mit seinem Team eine Sprechbarmachschnittstelle.