Zugriff auf über 700 Labs und Kurse nutzen

Es spricht! Mit Text-to-Speech synthetische Sprache erstellen

Lab 1 Stunde universal_currency_alt 1 Guthabenpunkt show_chart Einsteiger

info Dieses Lab kann KI-Tools enthalten, die den Lernprozess unterstützen.

GSP222
Übersicht
Einrichtung und Anforderungen
Aufgabe 1: Text-to-Speech API aktivieren
Aufgabe 2: Virtuelle Umgebung erstellen
Aufgabe 3: Dienstkonto erstellen
Aufgabe 4: Liste der verfügbaren Stimmen abrufen
Aufgabe 5: Synthetische Sprache aus Text erstellen
Aufgabe 6: Synthetische Sprache aus SSML erstellen
Aufgabe 7: Audioausgabe und Geräteprofile konfigurieren
Das wars! Sie haben das Lab erfolgreich abgeschlossen.

Zugriff auf über 700 Labs und Kurse nutzen

GSP222

Logo: Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

Mit der Text-to-Speech API können Sie Audiodateien mit maschinell erzeugter oder synthetischer menschlicher Sprache erstellen. Sie stellen den Inhalt als Text oder Speech Synthesis Markup Language (SSML) bereit, geben eine Stimme an (eine eindeutige „Sprecherin“ oder ein eindeutiger „Sprecher“ einer Sprache mit einem unverwechselbaren Ton und Akzent) und konfigurieren die Ausgabe. Die Text-to-Speech API gibt Ihnen den Inhalt, den Sie gesendet haben, als gesprochenes Wort (Audiodaten) zurück. Und zwar gesprochen von der Stimme, die Sie angegeben haben.

In diesem Lab verwenden Sie die Text-to-Speech API, um eine Reihe von Audiodateien zu erstellen. Anschließend hören Sie sich die Dateien an, um die Unterschiede zu vergleichen.

Lerninhalte

In diesem Lab verwenden Sie die Text-to-Speech API für Folgendes:

Erstellen einer Reihe von Audiodateien
Anhören und vergleichen der Audiodateien
Konfigurieren der Audioausgabe

Einrichtung und Anforderungen

Vor dem Klick auf „Start Lab“ (Lab starten)

Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.

In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.

Für dieses Lab benötigen Sie Folgendes:

Einen Standardbrowser (empfohlen wird Chrome)

Hinweis: Nutzen Sie den privaten oder Inkognitomodus (empfohlen), um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.

Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.

Hinweis: Verwenden Sie für dieses Lab nur das Teilnehmerkonto. Wenn Sie ein anderes Google Cloud-Konto verwenden, fallen dafür möglicherweise Kosten an.

Lab starten und bei der Google Cloud Console anmelden

Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Dialogfeld geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich „Details zum Lab“ mit diesen Informationen:
- Schaltfläche „Google Cloud Console öffnen“
- Restzeit
- Temporäre Anmeldedaten für das Lab
- Ggf. weitere Informationen für dieses Lab
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).

Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite „Anmelden“ geöffnet.

Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden.
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
{{{user_0.username | "Username"}}}
Sie finden den Nutzernamen auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
{{{user_0.password | "Password"}}}
Sie finden das Passwort auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos. Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen.
Klicken Sie sich durch die nachfolgenden Seiten:
- Akzeptieren Sie die Nutzungsbedingungen.
- Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
- Melden Sie sich nicht für kostenlose Testversionen an.

Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.

Hinweis: Wenn Sie auf Google Cloud-Produkte und ‑Dienste zugreifen möchten, klicken Sie auf das Navigationsmenü oder geben Sie den Namen des Produkts oder Dienstes in das Feld Suchen ein. Symbol für das Navigationsmenü und Suchfeld

Symbol für das Navigationsmenü und Suchfeld

Cloud Shell aktivieren

Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.

Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren .
Klicken Sie sich durch die folgenden Fenster:
- Fahren Sie mit dem Informationsfenster zu Cloud Shell fort.
- Autorisieren Sie Cloud Shell, Ihre Anmeldedaten für Google Cloud API-Aufrufe zu verwenden.

Wenn eine Verbindung besteht, sind Sie bereits authentifiziert und das Projekt ist auf Project_ID, eingestellt. Die Ausgabe enthält eine Zeile, in der die Project_ID für diese Sitzung angegeben ist:

Ihr Cloud-Projekt in dieser Sitzung ist festgelegt als {{{project_0.project_id | "PROJECT_ID"}}}

gcloud ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.

(Optional) Sie können den aktiven Kontonamen mit diesem Befehl auflisten:

gcloud auth list

Klicken Sie auf Autorisieren.

Ausgabe:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} Um das aktive Konto festzulegen, führen Sie diesen Befehl aus: $ gcloud config set account `ACCOUNT`

(Optional) Sie können die Projekt-ID mit diesem Befehl auflisten:

gcloud config list project

Ausgabe:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}}

Hinweis: Die vollständige Dokumentation für gcloud finden Sie in Google Cloud in der Übersicht zur gcloud CLI.

Region für Ihr Projekt festlegen

Geben Sie in Cloud Shell den folgenden Befehl ein, um die Region festzulegen, in der Ihr Projekt in diesem Lab ausgeführt werden soll:

gcloud config set compute/region {{{project_0.default_region | Region}}}

Aufgabe 1: Text-to-Speech API aktivieren

Auf der Seite der Cloud Text-to-Speech API werden Details, Messwerte und weitere Informationen angezeigt.

Aktivieren Sie die API:

Klicken Sie im Navigationsmenü () auf APIs und Dienste > Bibliothek.
Geben Sie text-to-speech in das Feld Nach APIs und Diensten suchen ein und klicken Sie in den Suchergebnissen auf Cloud Text-to-Speech API.
Klicken Sie auf Aktivieren, um die Cloud Text-to-Speech API zu aktivieren.

Es dauert einige Sekunden, bis die API für das Projekt aktiviert ist.

Klicken Sie auf Fortschritt prüfen. Text-to-Speech API aktivieren

Aufgabe 2: Virtuelle Umgebung erstellen

Virtuelle Python-Umgebungen werden verwendet, um die Paketinstallation vom System zu isolieren.

virtualenv-Umgebung installieren:

sudo apt-get install -y virtualenv

Virtuelle Umgebung erstellen:

python3 -m venv venv

Aktivieren Sie die virtuelle Umgebung:

source venv/bin/activate

Aufgabe 3: Dienstkonto erstellen

Sie verwenden ein Dienstkonto, um Ihre Aufrufe der Text-to-Speech API zu authentifizieren.

Erstellen Sie ein Dienstkonto:

Führen Sie in Cloud Shell den folgenden Befehl aus:

gcloud iam service-accounts create tts-qwiklab

Erstellen Sie einen Schlüssel für dieses Dienstkonto:

gcloud iam service-accounts keys create tts-qwiklab.json --iam-account tts-qwiklab@{{{project_0.project_id | Project ID}}}.iam.gserviceaccount.com

Legen Sie schließlich die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf den Speicherort Ihrer Schlüsseldatei fest:

export GOOGLE_APPLICATION_CREDENTIALS=tts-qwiklab.json

Klicken Sie auf Fortschritt prüfen. Dienstkonto erstellen

Aufgabe 4: Liste der verfügbaren Stimmen abrufen

Die Text-to-Speech API bietet verschiedene Stimmen und Sprachen, mit denen Sie Audiodateien erstellen können. Sie können jede verfügbare Stimme als Sprecher für Ihre Inhalte verwenden.

Hinweis: Die Text-to-Speech API umfasst mehrere Premiumstimmen, die als WaveNet-Stimmen bezeichnet werden und eine natürlich klingende synthetische Sprache erzeugen. Diese Stimmen sind auch etwas teurer als andere verfügbare Stimmen. Weitere Informationen finden Sie auf der Preisseite für Cloud Text-to-Speech.

Verwenden Sie in Cloud Shell den folgenden curl-Befehl, um die Stimmen aufzulisten, die bei der Erstellung synthetischer Sprache mit der Text-to-Speech API verfügbar sind:

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ "https://texttospeech.googleapis.com/v1/voices"

Die Cloud Text-to-Speech API gibt ein Ergebnis im JSON-Format ähnlich dem folgenden zurück:

{ "voices": [ { "languageCodes": [ "es-ES" ], "name": "es-ES-Standard-A", "ssmlGender": "FEMALE", "naturalSampleRateHertz": 24000 }, { "languageCodes": [ "ja-JP" ], "name": "ja-JP-Standard-A", "ssmlGender": "FEMALE", "naturalSampleRateHertz": 22050 }, { "languageCodes": [ "pt-BR" ], "name": "pt-BR-Standard-A", "ssmlGender": "FEMALE", "naturalSampleRateHertz": 24000 }, ... ] }

In den Ergebnissen des curl-Befehls sehen Sie, dass jede Stimme vier Felder hat:

name: Die Sprach-ID, die Sie angeben, um diese Stimme anzufordern.
ssmlGender: Das Geschlecht der Stimme, die den Text sprechen soll, wie unter SSML W3 Recommendation definiert.
naturalSampleRateHertz: Die Abtastrate der Stimme.
languageCodes: Die Liste der Sprachcodes, die mit dieser Stimme verknüpft sind.

Bei einigen Sprachen können Sie aus mehreren Stimmen wählen.

Beschränken Sie die von der API zurückgegebenen Ergebnisse auf einen einzigen Sprachcode:

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ "https://texttospeech.googleapis.com/v1/voices?language_code=en"

Aufgabe 5: Synthetische Sprache aus Text erstellen

Nachdem Sie nun wissen, wie Sie die Namen von Stimmen abrufen, um Ihren Text vorlesen zu lassen, können Sie synthetische Sprache erstellen.

Anfrage erstellen

Erstellen Sie dazu mit dem Cloud Shell Editor eine Anfrage an die Text-to-Speech API in einer Textdatei mit dem Namen synthesize-text.json.

Klicken Sie in Cloud Shell auf Editor öffnen, um den Cloud Shell-Editor zu öffnen.
Klicken Sie in der Aktionsleiste auf Datei > Neue Datei.
Geben Sie im Feld Dateityp auswählen oder Dateinamen eingeben synthesize-text.json ein.
Klicken Sie auf OK.
Fügen Sie den folgenden Code in synthesize-text.json ein:

{ 'input':{ 'text':'Cloud Text-to-Speech API allows developers to include natural-sounding, synthetic human speech as playable audio in their applications. The Text-to-Speech API converts text or Speech Synthesis Markup Language (SSML) input into audio data like MP3 or LINEAR16 (the encoding used in WAV files).' }, 'voice':{ 'languageCode':'en-gb', 'name':'en-GB-Standard-A', 'ssmlGender':'FEMALE' }, 'audioConfig':{ 'audioEncoding':'MP3' } }

Klicken Sie auf Datei > Speichern, um die Datei zu speichern.

Die JSON-formatierte Anfrage enthält drei Objekte:

input: Enthält den Text, der in synthetische Sprache umgewandelt werden soll.
voice: Das Objekt gibt die Stimme an, die für die synthetische Sprache verwendet werden soll.
audioConfig: Teilt der Text-to-Speech API mit, welche Art von Audiocodierung zurückgesendet werden soll.

Klicken Sie auf Terminal öffnen, um zum Terminal zurückzukehren.
Rufen Sie die Text-to-Speech API auf:

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ -d @synthesize-text.json "https://texttospeech.googleapis.com/v1/text:synthesize" \ > synthesize-text.txt

Die Ausgabe dieses Aufrufs wird in einer Datei namens synthesize-text.txt gespeichert.

Klicken Sie auf Editor öffnen und öffnen Sie die Datei synthesize-text.txt. Die Text-to-Speech API gibt die Audioausgabe als base64-codierten Text zurück, der dem Feld audioContent zugewiesen ist. Das sieht in etwa so aus:

{ "audioContent": "//NExAASGoHwABhGudEACdzqFXfRE4EY3AACkD/zX4ADf/6J/[...]" }

Antwort übersetzen

Um die Antwort in Audio zu übersetzen, wählen Sie die Audiodaten aus, die synthesize-text.txt enthält, und decodieren sie in eine Audiodatei – in diesem Lab eine MP3-Datei. Dafür gibt es viele Möglichkeiten. In diesem Lab wird einfacher Python-Code verwendet.

Klicken Sie in der Aktionsleiste auf Datei > Neue Datei.
Geben Sie im Feld Dateityp auswählen oder Dateinamen eingeben tts_decode.py ein und drücken Sie die Eingabetaste.
Klicken Sie auf OK.
Geben Sie den folgenden Code in tts_decode.py ein oder kopieren Sie ihn dort hinein:

import argparse from base64 import decodebytes import json """ Usage: python tts_decode.py --input "synthesize-text.txt" \ --output "synthesize-text-audio.mp3" """ def decode_tts_output(input_file, output_file): """ Decode output from Cloud Text-to-Speech. input_file: die Antwort von Cloud Text-to-Speech output_file: der Name der zu erstellenden Audiodatei """ with open(input_file) as input: response = json.load(input) audio_data = response['audioContent'] with open(output_file, "wb") as new_file: new_file.write(decodebytes(audio_data.encode('utf-8'))) if __name__ == '__main__': parser = argparse.ArgumentParser( description="Decode output from Cloud Text-to-Speech", formatter_class=argparse.RawDescriptionHelpFormatter) parser.add_argument('--input', help='The response from the Text-to-Speech API.', required=True) parser.add_argument('--output', help='The name of the audio file to create', required=True) args = parser.parse_args() decode_tts_output(args.input, args.output)

Speichern Sie tts_decode.py.

Audiodatei erstellen und ausführen

So erstellen Sie eine Audiodatei aus der Antwort, die Sie von der Text-to-Speech API erhalten haben:

Klicken Sie auf Terminal öffnen, um zu Cloud Shell zurückzukehren.
Erstellen Sie die Audiodatei synthesize-text-audio.mp3:

python tts_decode.py --input "synthesize-text.txt" --output "synthesize-text-audio.mp3"

Klicken Sie auf Editor öffnen, um den Cloud Shell-Editor zu öffnen.
Klicken Sie im linken Bereich auf synthesize-text-audio.mp3, um die Datei zu öffnen.
Spielen Sie die Audiodatei ab, um sie anzuhören. Sie hören die synthetische Stimme den Text sprechen, den Sie ihr gegeben haben.

Aufgabe 6: Synthetische Sprache aus SSML erstellen

Neben Text können Sie der Text-to-Speech API auch Eingaben in Form von Speech Synthesis Markup Language (SSML) bereitstellen. SSML definiert ein XML-Format zur Darstellung synthetischer Sprache. Mit SSML-Eingaben können Sie Pausen, Betonung, Aussprache, Tonhöhe, Geschwindigkeit und andere Eigenschaften der synthetischen Sprachausgabe präziser steuern.

Anfrage erstellen

Erstellen Sie zuerst Ihre Anfrage an die Text-to-Speech API in einer Textdatei mit dem Namen synthesize-ssml.json.

Klicken Sie im Cloud Shell-Editor in der Aktionsleiste auf Datei > Neue Datei.
Geben Sie im Feld Dateityp auswählen oder Dateinamen eingeben synthesize-ssml.json ein und drücken Sie die Eingabetaste.
Klicken Sie auf OK.
Geben Sie den folgenden Code in synthesize-ssml.json ein oder kopieren Sie ihn:

{ 'input':{ 'ssml':'<speak><s> <emphasis level="moderate">Cloud Text-to-Speech API</emphasis> allows developers to include natural-sounding <break strength="x-weak"/> synthetic human speech as playable audio in their applications.</s> <s>The Text-to-Speech API converts text or <prosody rate="slow">Speech Synthesis Markup Language</prosody> <say-as interpret-as=\"characters\">SSML</say-as> input into audio data like <say-as interpret-as=\"characters\">MP3</say-as> or LINEAR16 <break strength="weak"/> (the encoding used in WAV files).</s></speak>' }, 'voice':{ 'languageCode':'en-gb', 'name':'en-GB-Standard-A', 'ssmlGender':'FEMALE' }, 'audioConfig':{ 'audioEncoding':'MP3' } }

Das input-Objekt der zu sendenden JSON-Nutzlast enthält diesmal einige andere Elemente:

Anstelle eines text-Felds hat das input-Objekt ein ssml-Feld.
Das Feld ssml enthält XML-formatierten Inhalt mit dem Element <speak> als Stamm.

Jedes Element in dieser XML-Darstellung der Eingabe wirkt sich auf die Ausgabe der synthetischen Sprache aus.

Die Elemente in diesem Beispiel haben folgende Auswirkungen:

<s> enthält einen Satz.
<emphasis> betont das eingeschlossene Wort oder die Wortgruppe.
<break> fügt eine Pause in die Sprachausgabe ein.
<prosody> passt die Tonhöhe, die Sprechgeschwindigkeit oder die Lautstärke des eingeschlossenen Textes an. Dazu werden die Attribute rate, pitch oder volume verwendet.
<say-as> gibt genauere Anweisungen, wie der eingeschlossene Text interpretiert und dann gesprochen werden soll, zum Beispiel, ob eine Zahlenfolge als Ordnungs- oder Kardinalzahl gesprochen werden soll.
 gibt einen Ersatzwert an, der für den eingeschlossenen Text gesprochen werden soll.

Hinweis: Eine vollständige Liste der von Cloud Text-to-Speech unterstützten SSML-Elemente finden Sie in der SSML-Referenz.

Klicken Sie auf Terminal öffnen, um das Cloud Shell-Terminal zu öffnen.
Rufen Sie die Text-to-Speech API auf und speichern Sie die Ausgabe in einer Datei namens synthesize-ssml.txt:

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ -d @synthesize-ssml.json "https://texttospeech.googleapis.com/v1/text:synthesize" \ > synthesize-ssml.txt

Audiodatei erstellen und ausführen

Auch hier müssen Sie die Ausgabe der Text-to-Speech API decodieren, bevor Sie das Audio hören können.

Klicken Sie auf Terminal öffnen. Führen Sie den folgenden Befehl aus, um mit dem zuvor erstellten Dienstprogramm tts_decode.py eine Audiodatei mit dem Namen synthesize-ssml-audio.mp3 zu generieren:

python tts_decode.py --input "synthesize-ssml.txt" --output "synthesize-ssml-audio.mp3"

Klicken Sie auf Editor öffnen.
Klicken Sie im linken Bereich auf synthesize-ssml-audio.mp3 und spielen Sie die eingebettete Audiodatei ab.

Beachten Sie die Unterschiede zwischen der SSML-Ausgabe und der Textdatei-Ausgabe: Obwohl beide Audiodateien dieselben Wörter enthalten, werden sie in der SSML-Ausgabe etwas anders gesprochen, mit Pausen und unterschiedlicher Aussprache für Abkürzungen.

Aufgabe 7: Audioausgabe und Geräteprofile konfigurieren

Über SSML hinaus können Sie die von der Text-to-Speech API erstellte synthetische Sprachausgabe noch weiter anpassen. Sie können auch andere Audiocodierungen angeben, die Tonhöhe der Audioausgabe ändern und sogar die Ausgabe für einen bestimmten Hardwaretyp optimieren lassen.

Anfrage erstellen

Erstellen Sie Ihre Anfrage an die Text-to-Speech API in einer Textdatei mit dem Namen synthesize-with-settings.json:

Klicken Sie in der Aktionsleiste auf Datei > Neue Datei.
Geben Sie im Feld Dateityp auswählen oder Dateinamen eingeben synthesize-with-settings.json ein und drücken Sie die Eingabetaste.
Klicken Sie auf OK.
Geben Sie den folgenden Code in synthesize-with-settings.json ein oder kopieren Sie ihn dorthin:

{ 'input':{ 'text':'The Text-to-Speech API is ideal for any application that plays audio of human speech to users. It allows you to convert arbitrary strings, words, and sentences into the sound of a person speaking the same things.' }, 'voice':{ 'languageCode':'en-us', 'name':'en-GB-Standard-A', 'ssmlGender':'FEMALE' }, 'audioConfig':{ 'speakingRate': 1.15, 'pitch': -2, 'audioEncoding':'OGG_OPUS', 'effectsProfileId': ['headphone-class-device'] } }

Speichern Sie die Datei.

Das Objekt audioConfig enthält jetzt zusätzliche Felder:

Das Feld speakingRate gibt die Geschwindigkeit an, mit der der Sprecher die Stimme spricht. Ein Wert von 1,0 entspricht der normalen Geschwindigkeit, 0,5 der halben und 2,0 der doppelten Geschwindigkeit.
Das Feld pitch gibt einen Tonhöhenunterschied an, mit dem die Wörter gesprochen werden sollen. Der Wert gibt an, um wie viele Halbtonschritte die Wörter tiefer (negativ) oder höher (positiv) gesprochen werden sollen.
Das Feld audioEncoding gibt die Audiocodierung an, die für die Daten verwendet werden soll. Zulässige Werte für dieses Feld sind LINEAR16, MP3 und OGG_OPUS.
Das Feld effectsProfileId fordert die Text-to-Speech API auf, die Audioausgabe für ein bestimmtes Wiedergabegerät zu optimieren. Die API wendet ein vordefiniertes Audioprofil auf die Ausgabe an, wodurch die Audioqualität auf der angegebenen Geräteklasse verbessert wird.

Hinweis: Die Funktion „Audioprofile“ ist in der Betaphase. Hier erfahren Sie, wie Sie die Funktion in Ihrer Anwendung verwenden. Alle anderen hier beschriebenen Einstellungen sind allgemein verfügbar und können in Ihrer Anwendung verwendet werden.

Klicken Sie auf Terminal öffnen.
Rufen Sie die Text-to-Speech API auf:

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ -d @synthesize-with-settings.json "https://texttospeech.googleapis.com/v1beta1/text:synthesize" \ > synthesize-with-settings.txt

Die Ausgabe dieses Aufrufs wird in einer Datei namens synthesize-with-settings.txt gespeichert.

Audiodatei erstellen und ausführen

Führen Sie den folgenden Befehl aus, um eine Audiodatei mit dem Namen synthesize-with-settings-audio.mp3 aus der Ausgabe der Text-to-Speech API zu generieren:

python tts_decode.py --input "synthesize-with-settings.txt" --output "synthesize-with-settings-audio.ogg"

Klicken Sie auf Editor öffnen, um den Cloud Shell-Editor zu öffnen.
Klicken Sie im linken Bereich auf synthesize-with-settings-audio.mp3, um die Datei zu öffnen und die Audioausgabe abzuspielen.
Spielen Sie die Audiodatei synthesize-with-settings-audio.mp3 sowie die anderen Audiodateien ab, die Sie in diesem Lab erstellt haben. Die Stimme in dieser Audiodatei spricht etwas schneller und tiefer als in den anderen Audiodateien.

Das wars! Sie haben das Lab erfolgreich abgeschlossen.

Sie haben gelernt, wie Sie mit der Cloud Text-to-Speech API synthetische Sprache erstellen. Das war Inhalt des Kurses:

Alle über die Text-to-Speech API verfügbaren synthetischen Stimmen auflisten
Text-to-Speech API-Anfrage erstellen und die API mit „curl“ aufrufen, wobei sowohl Text als auch SSML bereitgestellt werden
Konfiguration der Einstellung für die Audioausgabe, einschließlich der Angabe eines Geräteprofils für die Audiowiedergabe

Weitere Informationen

Ausführliche Informationen finden Sie in der Dokumentation zur Text-to-Speech API auf cloud.google.com.
Hier erfahren Sie, wie Sie mit den Clientbibliotheken für die Text-to-Speech API synthetische Sprache erstellen.

Google Cloud-Schulungen und -Zertifizierungen

In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.

Anleitung zuletzt am 05. September 2025 aktualisiert

Lab zuletzt am 04. November 2024 getestet

© 2025 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.

Es spricht! Mit Text-to-Speech synthetische Sprache erstellen

Es spricht! Mit Text-to-Speech synthetische Sprache erstellen

GSP222

Übersicht

Lerninhalte

Einrichtung und Anforderungen

Vor dem Klick auf „Start Lab“ (Lab starten)

Lab starten und bei der Google Cloud Console anmelden

Cloud Shell aktivieren

Region für Ihr Projekt festlegen

Aufgabe 1: Text-to-Speech API aktivieren

Aufgabe 2: Virtuelle Umgebung erstellen

Aufgabe 3: Dienstkonto erstellen

Aufgabe 4: Liste der verfügbaren Stimmen abrufen

Aufgabe 5: Synthetische Sprache aus Text erstellen

Anfrage erstellen

Antwort übersetzen

Audiodatei erstellen und ausführen

Aufgabe 6: Synthetische Sprache aus SSML erstellen

Anfrage erstellen

Audiodatei erstellen und ausführen

Aufgabe 7: Audioausgabe und Geräteprofile konfigurieren

Anfrage erstellen

Audiodatei erstellen und ausführen

Das wars! Sie haben das Lab erfolgreich abgeschlossen.

Weitere Informationen

Google Cloud-Schulungen und -Zertifizierungen

Vorbereitung

Privates Surfen verwenden

In der Konsole anmelden

Privates Surfen für das Lab verwenden