Alexa Stimme & Aussprache in Skills verändern

Der Sprachassistent Alexa klingt immer gleich? Von wegen! Wenn Unternehmen eine Voice App (oder wie diese bei Alexa heißen: einen Alexa Skill) erstellen, haben sie vielfältige Möglichkeiten, die Stimme zu beeinflussen.

Inhalt dieses Artikels:
Gründe für Stimmveränderung | Technische Möglichkeiten | So geht’s konkret (SSML)

Kann man Alexas Stimme überhaupt ändern?

Die Antwort auf diese Frage ist ein klares: ja und nein. Natürlich ist Alexas Stimme erst einmal fest eingebaut in diesen Sprachassistenten. Aber es gibt mehrere Möglichkeiten, diese zu verändern: zum einen gibt es neben Alexa weitere Stimmenprofile, die von Unternehmen für die Aussprache in den eigenen Skills gewählt werden können. Außerdem können diese (Alexa wie auch die anderen Stimmen) in ihrer Modulation und speziellen Aussprache verändert und an die eigenen Bedürfnisse angepasst werden. Und schließlich kann – zwar deutlich aufwändiger aber durchaus möglich – auch die Stimme eines eigenen, aufgezeichneten Sprechers in einer abgespielten Audio-Datei genutzt werden.

Warum sollte man die Stimme von Alexa überhaupt verändern?

Gibt es überhaupt einen Grund, die Stimme von Alexa nach eigenen Anforderungen anzupassen? Ist es nicht am einfachsten, in eine Voice App einfach die normale Stimme von Alexa zu nutzen?

Klar, am einfachsten ist natürlich die Nutzung der Standardstimme von Alexa. In diesem Fall muss in der Programmierung des Alexa Skills auch keinerlei zusätzlicher Programmcode erstellt werden (mehr dazu siehe auch unten). Es gibt aber eine Reihe von Gründen, diesen Aufwand dann doch zu betreiben.

Markenführung und die Sprachassistenten-Stimme

Marken haben einen eigenen Charakter und sie erzeugen – nach der heute üblichen identitätsbasierten Markenführung – ein Bild der Marke im Kopf des Kunden. Tritt eine Marke nun in Form von Voice Apps auf Sprachassistenten auf, trägt diese natürlich zur Bildung dieses Marken-Images bei. Deshalb sind Marken-führende Unternehmen gut beraten, Mühe in die Gestaltung der Stimme ihrer Voice Apps zu stecken.

Aussprache & Stimme an den Kommunikationsinhalt anpassen

Kommunikation wird authentischer und emotionaler, wenn sich die Stimme an die kommunizierten Inhalte anpasst. Wenn Alexa bzw. die Voice App ein (echtes oder scheinbares ;-)) Geheimnis verrät, ist ein Flüster-Ton in der Stimme genau das passende. Auch eine lautere oder leiser, eine schnellere oder langsamere Aussprache könne je nach Inhalt sinnvoll sein. Selbst abhängig von der individuellen Zielgruppe (in einem Thema erfahrene oder unerfahrene Nutzer? Ältere oder eingeschränkte Nutzer? etc.) machen eine Anpassung von Stimme und Aussprache sinnvoll.

Dialoge von zwei (oder mehreren) Personen

Wollen Sie Alexa einen Dialog zwischen zwei oder ein Gespräch zwischen mehreren Sprechern ausführen lassen? Dann können Sie in jedem Satz (oder auch bei einzelnen Wörtern) einfach die Stimme zu einem anderen Sprecher verändert. Amazon stellt dazu mehrere Stimmen – im Deutsche aktuell neben Alexa die Stimmen von Hans, Marlene und Viki – zur Verfügung.

Sinnvoll nutzbar wäre das zum Beispiel, wenn Hörspiele mit mehreren Personen angeboten werden oder im Marketing Kundenbewertung von einer anderen Stimme vorgelesen werden sollen.

Fremdsprachige Worte richtig aussprechen

Wie soll das Wort „Paris“ ausgesprochen werden? Wie von einem Deutschen oder wie in der französischen Aussprache? Um das festzulegen, können Sie zur Aussprache auch klare Festlegungen nach regionaler Aussprache definieren oder auch die Stimme eines fremdsprachigen Sprechers auswählen.

Ein paar technische Grundlagen (SSML & Audio-Streaming)

Zur Veränderung der Stimme von Alexa gibt es drei Stufen:

Anpassung der Aussprache von Alexas Standardstimme.
Veränderung des Sprechers/der Sprecherin auf eine andere von Amazon zur Verfügung gestellte Stimme.
Nutzung eigener Sprecher/innen mittels Audio-Streaming

SSML zur Stimmenanpassung

Die ersten beiden Anpassungen können durch SSML (Speech Synthesis Markup Language) erfolgen. Dazu müssen von der Voice App dem eigentlich auszusprechenden Text zusätzliche Kennzeichnungen hinzugefügt werden, die die gewünschten Anpassungen für Alexa erkennbar machen und dann zu einer entsprechenden Aussprache führen. Beispiele hierfür finden Sie weiter unten.

Individuelle, eigene Stimme mittels Streaming

Ganz eigene Sprecher und Stimmen sind aktuell nur durch Audio-Streaming möglich, d. h. diese Stimmen müssen als Aufnahme in einem Dateiformat (MP3 bzw. MPEG-4) vorliegen und werden dann von Alexa über das Endgerät gestreamt.

Solches Streaming von aufgenommenen Sprechern kann technisch entweder über das Audio-Player-Interface von Alexa erfolgen oder Audio-Dateien bis 240 Sekunden (MP3) können über das Audio-Tag direkt in SSML eingebunden werden, wie es das folgende Beispiel zeigt:

<speak>Jetzt kommt eine Audio-Datei <audio src=“https://www.beispiel.de/sample.mp3″> – das war es.</speak>

Zu bedenken ist hierbei allerdings, dass man nicht mehr flexibel ist, die auszusprechenden Sätze in der Programmierung beliebig zusammen zu stellen, sondern nur noch fest, vorher aufgezeichnete Kommunikation abgespielt werden kann.

Alexas Skill-Stimme & Aussprache anpassen mit SSML

Wie bereits erwähnt kann per SSML die Stimme und Aussprache von Alexa angespasst werden. Im folgenden zeigen wir einige Beispiele. Eine vollständige Übersicht über von Alexa unterstützen SSML Tags findet sich in der Amazon Entwicklerdokumentation.

Alexa-Sprecher/in auswählen

Neben Alexa gibt es für den deutschsprachigen Raum noch die Sprecher Hans, Marlene und Vicki. Für US-Englisch gibt es sogar 8 Sprecher-Stimmen (inklusive einer geschlechtsneutralen Kendra), für Französisch 3 Stimmen und jeweils zwei Sprecher zur Auswahl für australisches, britisches und indisches Englisch sowie für Spanisch, Italienisch, Japanisch und Hindi.

Jede dieser wählbaren Sprecherstimmen hat einen Namen, über die sie ausgewählt werden kann. Der Text, der in einer dieser Stimmen gesprochen werden soll, wird einfach in die folgenden Tags integriert:

<voice name=“(hier Name der Stimme)“>Hier der Text, der gesprochen wird.</voice>

Das folgende Beispiel zeigt, wie die stimmen auch innerhalb des Textes leicht umgestellt werden können:

<speak>Jetzt sagt Marlene was: <voice name=“Marlene“>Ich bin Marlene</voice>. Und diesen Text hier sagt Alexa wieder</speak>

Prinzipiell können auch deutsche Texte mit englischen, italienischen oder französischen Sprechern ausgegeben werden. Allerdings ergibt es keine deutsche Aussprache mit Akzent, sondern die deutsch geschriebenen Worte werden gelesen, als wären es Worte der jeweiligen Fremdsprache.

Gesprochene Sprache für Alexa auswählen

Klar zu trennen von den im letzten Abschnitt ausgewählten Sprechern ist die Sprach, in der diese etwas aussprechen sollen – also die Art bzw. Sprache, in der geschriebene interpretiert werden.

So kann eine deutsche Stimme wie Hans oder Vicki durchaus das französische „Au revoir“ (dt. „Auf Wiedersehen“) korrekt aussprechen. Es wird dann „oh reva“ gesagt – und nicht den Buchstaben exakt „au re-vo-ir“. Analog können auch Deutsche Worte (wie z.B. „Kindergarten“, das oft in anderen Sprachen auch so verwendet wird) von fremdsprachigen Sprechern korrekt ausgesprochen werden.

Im Folgenden sieht man das eben angesprochen Au Revoir:

<speak>Und jetzt kommt Auf Wiedersehen in Französisch: <lang xml:lang=“fr-FR“>Au revoir</lang></speak>

Ohne das <lang>-Tag würden die letzten beiden Worte einfach auf deutsch gesagt werden.

Natürlich kann dieses Sprach-Tag auch mit dem Tag zur Auswahl der Sprecherstimme kombiniert werden:

<speak>Jetzt sagt gleich Marlene was auf Französisch: <voice name=“Marlene“><lang xml:lang=“fr-FR“>Au revoir</lang></voice> – toll oder?</speak>

Stimmmodulation in Alexa Skills verändern

Menschen modulieren ihre Stimme laufend: wenn sie aufgeregt sind, sprechen sie schneller, als wenn es um Entspannung geht. Die Stimme wird außerdem gehoben oder gesenkt und es werden kurze Pausen zwischen den Worten eingelegt, um bestimmte Dinge zu betonen. Außerdem haben solche Modulationen einen großen Einfluss auf die Wahrnehmung der Persönlichkeit und ihrer Rolle. So wird ein Eventanbieter seine Stimme anders modulieren als jemand, der Gesundheitsempfehlungen ausspricht oder jemand, der als seriöser, hochwertiger Berater wahrgenommen werden will.

Alexa langsamer oder schneller, lauter und leiser sprechen lassen

Mit dem SSML-Tag <prosody> können Sie verschiedene Modulationen in der Stimme bewirken. Dabei können Sprechgeschwindigkeit (rate), Stimmhöhe (pitch) und Lautstärke (volume) verändert werden.

<speak>Ich spreche jetzt normal, <prosody rate=“x-slow“>jetzt sehr langsam</prosody>, und <prosody pitch=“low“>mit einer tieferen Stimme</prosody> sowie <prosody volume=“x-loud“>jetzt nochmal deutlich lauter</prosody>.</speak>

Für die Modulation sind feste Werte sind 5 feste Werte (x-slow bis x-fast bzw. x-low bis x-high bzw. silent bis x-loud) verfügbar, es ist jedoch auch möglich, eine prozentuale Anpassung vorzunehmen.

Außerdem können Betonungen mit dem <emphasis>-Tag erfolgen. Damit werden Lautstärke als auch Sprechgeschwindigkeit gleichzeitig angepasst, um bestimmte Worte zu betonen:

<speak>Hier gibt es eine <emphasis level=“strong“>Betonung</emphasis>.</speak>

Sprechpausen einfügen

Kurze Pausen in Sätzen können dazu dienen, den Fokus auf bestimmte Inhalte zu lenken und Betonungen (quasi durch kurzes Nichts-Sagen) zu setzen. Dazu gibt es in SSML den Tag <break>. Wann immer dieser in einem Text auftaucht legt Alexa eine kurze Pause in der Sprachausgabe ein. Die Länge kann dabei von 10 ms bis zu 10 Sekunden frei festgelegt oder auf 6 Standardwerte zurückgegriffen werden.

<speak>Jetzt kommt gleich eine Pause <break time=“2s“ />und jetzt geht’s weiter.</speak>

Wie kann Alexa Emotionen in die Stimme bringen?

Im Jahr 2019 hat Amazon es Unternehmen ermöglich, die gesprochenen Sätze in Skills emotionaler klingen zu lassen. Dabei sind als Emotionen „excited“ (aufgeregt) und „disappointed“ (enttäuscht) in jeweils drei Stärken wählbar.

ACHTUNG: diese Funktion ist zum aktuellen Stand nur für die US-englische Sprache möglich, noch nicht für Deutsch.

Aktiviert wird die emotionale Aussprache auch mittels SSML-Tags. Hier ein Beispiel, welchen String eine Voice App (Skill) an Alexa übergeben müsste, um die Aussprache entsprechend anzupassen.

<speak>
Jetzt werde ich emotional.
<amazon:emotion name=“excited“ intensity=“high“>und bin total aufgeregt hier</amazon:emotion>.
<amazon:emotion name=“disappointed“ intensity=“medium“>Oder ich bin total enttäuscht und versuche auch so zu klingen.</amazon:emotion>
</speak>

Eine Antwort auf „Alexa Stimme & Aussprache in Skills verändern“

Dirk Feibicke sagt:

02.12.2020 um 21:17 Uhr

Hallo, wenn ich die Beispieltexte als Alexa’s benutzerdefinierte Antwort eingebe, bekomme ich den Hinweis, dass keine Sonderzeichen erlaubt sind. Der Text wird dann rot markiert und kann nicht benutzt werden. Muss ich vorher einen Skill aktivieren?

Antworten