Text-to-Speech

Text-to-Speech (TTS) ist eine Technologie, die geschriebenen Text in gesprochene Sprache umwandelt. Diese Umwandlung ermöglicht es, Informationen auf eine auditiv zugängliche Weise zu präsentieren. TTS-Systeme nutzen synthetische Stimmen, die auf akustischen Modellen und Sprachalgorithmen basieren, um die menschliche Sprache so genau wie möglich nachzubilden.

Die Technologie findet in verschiedenen Bereichen Anwendung, wie zum Beispiel in der Unterstützung für Menschen mit Sehbehinderungen oder Lese- und Schreibschwächen, in Sprachassistenten für Smartphones und Heimgeräte oder in Navigationssystemen für Fahrzeuge. TTS-Systeme werden kontinuierlich weiterentwickelt, um natürlichere Stimmen und verbesserte Aussprache zu erreichen, wodurch die Benutzererfahrung immer besser wird.

Beispiel Text-2-Speech

meine Anwendungsfälle bisher:

  • Vertonung von Schulungsmaterialien für meine Studenten
  • zum Lernen großer Textmengen und Wiederholen vor Prüfungen
  • Erstellung von Lernvideos bzw. Youtube Videos

SSML (Speech Synthesis Markup Language)

Ich „spiele“ seit einiger Zeit mit diversen Text-to-Speech APIs rum und stoße dabei immer wieder auf den Begriff SSML. Dies ist eine XML-basierte Markupsprache zum Optimieren der Text-zu-Sprache-Ausgabeattribute wie u. a. Tonhöhe, Aussprache, Sprechtempo und Lautstärke.

Am Anfang <speak> und am Ende </speak> muss das Stammelement von SSML verwendet werden. Der erste Absatz dieses Blog-Eintrages würde in SSML so aussehen:

<speak> <emphasis level=strong>Text-to-Speech</emphasis>, auch bekannt als <phoneme alphabet=ipa ph=tɛkst tu spiːʧ>TTS</phoneme>, ist eine Technologie, die geschriebenen Text in gesprochene Sprache umwandelt. Diese Umwandlung ermöglicht es, Informationen auf eine auditiv zugängliche Weise zu präsentieren. TTS-Systeme nutzen synthetische Stimmen, die auf akustischen Modellen und Sprachalgorithmen basieren, um die menschliche Sprache so genau wie möglich nachzubilden. Die <prosody rate=slow pitch=-2st>Technologie</prosody> findet in verschiedenen Bereichen Anwendung, wie zum Beispiel in der Unterstützung für Menschen mit Sehbehinderungen oder Lese- und Schreibschwächen, in Sprachassistenten für Smartphones und Heimgeräte oder in Navigationssystemen für Fahrzeuge. <voice gender=female>TTS-Systeme werden kontinuierlich weiterentwickelt, um natürlichere Stimmen und verbesserte Aussprache zu erreichen, wodurch die Benutzererfahrung immer besser wird.</voice> </speak>

Syntax

  • <break>
    • <break time=“3000ms“ />
    • <break time=“3s“ />
  • <phoneme> – spezielle Aussprache: ipa bzw. x-sampa
  • <prosody> – Anpassen der Geschwindigkeit, Lautstärke
    • <prosody rate=“slow“ pitch=“-2st“>Test</prosody>
  • <emphasis> – Betonung
    • <emphasis level=“none“>unwichtig</emphasis>
    • <emphasis level=“reduced“>nicht ganz so wichtig</emphasis>
    • <emphasis level=“moderate“>einigermaßen wichtig</emphasis>
    • <emphasis level=“strong“>wichtig</emphasis>
  • <say-as> – um etwas auf eine bestimmte Art auszusprechen
    • <say-as interpret-as=“duration“ format=“h:m“>2:23</say-as> // als Uhrzeit ausprechen
    • <say-as interpret-as=“date“ format=“<yyyymmdd“>1960-09-10</say-as> // 10.09.1960
    • <say-as interpret-as=“characters“>WHO</say-as> // Buchstabieren
    • <say-as interpret-as=“cardinal“>10</say-as> // zehn
    • <say-as interpret-as=“ordinal“>10</say-as> // zehnter
    • <say-as interpret-as=“characters“>10</say-as> // 1-0
    • <say-as interpret-as=“fraction“>5+1/2</say-as> // „fünf und ein halb
  • <sub>
    • <sub alias=“2. Weltkrieg“>2. WK</sub>
  • <voice> // Änderung der Stimme
    • <voice language=“fr-FR“ gender=“female“>qu’est-ca qio t’amène ici</voice> // weibliche Stimme auf französisch
    • <voice name=“fr-CA-Wavenet-B“>qu’est-ca qio t’amène ici</voice> // bestimmte Stimmer der unterstützten Sprachen
  • <lang> – ändern der Sprache im Text
    • <lang xml:lang=“fr-FR“>bonjour</land>
  • Mediencontainer
    • <par> // parallel
    • <seq> // sequenziell – hintereinander
    • <audio>
      • <audio src=“http://XXX“>Problems with Audio File</audio>

weiterführende Links:

Welche ist die beste API

Ich habe zwar nicht alle Text-To-Speech APIs ausprobiert, aber die „Großen“, wie Amazon, Microsoft, Google. Es gibt noch eine große Anzahl an anderen, wie MURF.AI, Speechify, Speechelo, Synthesys die teilweise sehr gute Bewertungen haben und auch echt gute Ergebnisse liefern. Da ich aber bereits über Accounts bei den großen Anbietern für andere APIs verfüge, habe ich mich schlussendlich für Google-Text-To-Speech-API entschieden.