Aus textlich verfassten Inhalten gesprochenen Text zu generieren, ging füher nur dadurch, dass eine Sprecherin oder ein Sprecher den Text ablas. Dann aber gleich in der gewünschten Betonung und insgesamt perfekt.
Steht keine Sprecherin zur Verfügung, kann man sich heutzutage mit KI behelfen. Im Web gibt es ziemlich viele Angebote von text2speech-Lösungen (will heißen: Text to Speech). Oft kann man neben der Grundstimme auch weitere Parameter seinen Wünschen entsprechend anpassen. Allerdings sind die Angebote höchst unterschiedlicher Qualität.
Gut ist, dass man einen individuellen Text bei vielen der Anbieter online in gesprochenen Text umwandeln lassen und somit testen kann. Neben schlechter Betonung wie roboterartig abgehackter Sprachweise ist auch der Umgang mit Umlauten nicht überall gleich gut. So wird das Wort „Gelände“ in der Regel korrekt ausgesprochen, das Wort „entrümpelt“ aber bei einigen Sprachgeneratoren falsch als „entrumpelt“ ausgesprochen.
Es ist als sehr zu empfehlen, solchen Text zum Testen zu nutzen, den man hinterher umsetzen möchte.
Das für meine Ansprüche beste Ergebnis lieferte https://speechgen.io/de/tts-german/. Ich bevorzuge für mein Video-Projekt eine weiblche Stimme. Es gibt einfache Stimmen und Pro-Stimmen. Die Pro-Stimmen sollen einen angenehmeren, menschenähnlicheren Klang erzeugen – im Vergleich ist mir das jetzt nicht gravierend aufgefallen. Es gibt ein Start-Kontingent von 308 Zeichen für Pro-Simmen, bzw. 616 für einfache Simmen. Dieses Kontingent verringert sich mit jeder Nutzung ensprechend der genutzten Zeichen. Ist es aufgebraucht, kann man es nach Bedarf kostenpflichtig aufstocken. Je nach Bedarf ab knapp 5 €.
Kommentare
Keine Kommentare
Kommentare