Accedi a oltre 700 lab e corsi

Trascrizione della voce in testo con l'API Cloud Speech

Lab 30 minuti universal_currency_alt 1 credito show_chart Introduttivi

info Questo lab potrebbe incorporare strumenti di AI a supporto del tuo apprendimento.

GSP048
Panoramica
Configurazione e requisiti
Attività 1: crea una chiave API
Attività 2: crea la richiesta API
Attività 3: chiama l'API Speech-to-Text
Attività 4: esegui la trascrizione della voce in testo in lingue diverse
Complimenti!

Accedi a oltre 700 lab e corsi

GSP048

Logo dei self-paced lab di Google Cloud

Panoramica

L'API Speech-to-Text ti consente di trascrivere file audio in file di testo in oltre 80 lingue.

In questo lab invierai un file audio all'API Speech per la trascrizione.

Obiettivi didattici

In questo lab imparerai a:

Creare una richiesta all'API Speech-to-Text e chiamare l'API con curl
Chiamare l'API Speech-to-Text con file audio in una lingua diversa

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Inizia il lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

Accesso a un browser internet standard (Chrome è il browser consigliato).

Nota: per eseguire questo lab, utilizza una finestra del browser in modalità di navigazione in incognito (consigliata) o privata. Ciò evita conflitti tra il tuo account personale e l'account studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.

È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.

Nota: utilizza solo l'account studente per questo lab. Se utilizzi un altro account Google Cloud, potrebbero essere addebitati costi su quell'account.

Come avviare il lab e accedere alla console Google Cloud

Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si aprirà una finestra di dialogo per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
- Il pulsante Apri la console Google Cloud
- Tempo rimanente
- Credenziali temporanee da utilizzare per il lab
- Altre informazioni per seguire questo lab, se necessario
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).

Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}}
Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}}
Puoi trovare la Password anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
Fai clic nelle pagine successive:
- Accetta i termini e le condizioni.
- Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
- Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: per accedere ai prodotti e ai servizi Google Cloud, fai clic sul menu di navigazione o digita il nome del servizio o del prodotto nel campo Cerca. Icona del menu di navigazione e campo Cerca

Icona del menu di navigazione e campo Cerca

Attività 1: crea una chiave API

Poiché utilizzi curl per inviare una richiesta all'API Speech-to-Text, devi generare una chiave API che dovrai passare nell'URL della richiesta.

Per creare una chiave API, nel menu di navigazione () fai clic su API e servizi > Credenziali.
Fai clic su Crea credenziali e seleziona Chiave API.
Copia e registra la chiave appena generata per utilizzarla in un secondo momento in questo lab.
Fai clic su Chiudi.

Fai clic su Controlla i miei progressi per verificare l'obiettivo.

Crea una chiave API

Ora salva la chiave API come variabile di ambiente per evitare di doverne inserire il valore in ogni richiesta.

Per eseguire i passaggi successivi, connettiti a linux-instance di cui è stato eseguito il provisioning per te tramite SSH:

Nel menu di navigazione ( Icona menu di navigazione ), fai clic su Compute Engine > Istanze VM.

Nota la VM linux-instance nell'elenco Istanze VM. I dettagli della VM si trovano a destra del suo nome.

Fai clic su SSH a destra del nome della VM linux-instance.

Si apre una shell interattiva. Utilizzala per eseguire le operazioni successive.

Nella shell (SSH), esegui il comando seguente sostituendo <your_api_key> con la chiave che hai appena copiato:

export API_KEY=<YOUR_API_KEY>

Attività 2: crea la richiesta API

Nota: questo lab utilizza un file pre-registrato disponibile in Cloud Storage: gs://cloud-samples-data/speech/brooklyn_bridge.flac. Prima di inviarlo all'API Speech-to-Text, puoi ascoltarlo.

Crea la tua richiesta all'API in un file request.json. Crea il file request.json:

touch request.json

Apri il file utilizzando il tuo editor della riga di comando preferito (nano, vim, emacs) o gcloud, quindi aggiungi quanto segue al file request.json utilizzando il valore dell'uri del file audio RAW di esempio:

{ "config": { "encoding":"FLAC", "languageCode": "en-US" }, "audio": { "uri":"gs://cloud-samples-data/speech/brooklyn_bridge.flac" } }

Se necessario, salva il file.

Il corpo della richiesta contiene un oggetto config e un oggetto audio.

In config, indichi all'API Speech-to-Text come elaborare la richiesta:

Il parametro encoding indica all'API quale tipo di codifica audio viene utilizzato durante l'invio del file all'API. FLAC è il tipo di codifica per i file .raw. Scopri di più sui tipi di codifica nel documento di riferimento di RecognitionConfig.
Se non viene specificato nella richiesta, languageCode verrà utilizzato per impostazione predefinita in inglese.

Esistono altri parametri che puoi aggiungere all'oggetto config, ma encoding è l'unico obbligatorio.

Nell'oggetto audio, passi all'API l'URI del file audio archiviato in Cloud Storage per questo lab.

Fai clic su Controlla i miei progressi per verificare l'obiettivo.

Crea una richiesta all'API Speech

Ora è tutto pronto per chiamare l'API Speech-to-Text.

Attività 3: chiama l'API Speech-to-Text

Utilizza il seguente comando curl (tutto in un'unica riga di comando) per passare all'API il corpo della richiesta insieme alla variabile di ambiente della chiave API:

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

La risposta viene memorizzata in un file denominato result.json.

Per visualizzare i contenuti del file, puoi utilizzare:

cat result.json

La risposta restituita dal comando curl ha il seguente aspetto:

{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98216057 } ], "resultEndTime": "1.770s", "languageCode": "en-us" } ], "totalBilledTime": "15s" }

Il valore transcript restituisce la trascrizione del testo del file audio eseguita dall'API Speech e il valore confidence indica in che misura l'API è sicura di aver trascritto l'audio in modo accurato.

Nota che la nostra richiesta precedente conteneva una chiamata al metodo syncrecognize. L'API Speech-to-Text supporta la trascrizione sincrona e asincrona della voce in testo.

In questo esempio è stato utilizzato un file audio completo, ma puoi usare anche il metodo syncrecognize per eseguire una trascrizione della voce in testo in streaming mentre l'utente sta ancora parlando.

Fai clic su Controlla i miei progressi per verificare l'obiettivo.

Chiama l'API Speech per la lingua inglese

Attività 4: esegui la trascrizione della voce in testo in lingue diverse

Sei multilingue? L'API Speech-to-Text supporta la trascrizione della voce in testo in oltre 100 lingue.

Puoi modificare il parametro language_code in request.json. Puoi trovare un elenco delle lingue supportate nella guida Supporto delle lingue.

Prova un file audio in francese (fai clic qui per ascoltarlo in anteprima).

Modifica request.json e imposta i contenuti come segue:

{ "config": { "encoding":"FLAC", "languageCode": "fr" }, "audio": { "uri":"gs://cloud-samples-data/speech/corbeau_renard.flac" } }

Chiama Speech-to-Text eseguendo di nuovo il comando curl.
Guarda i risultati:

cat result.json

Dovresti vedere la seguente risposta:

{ "results": [ { "alternatives": [ { "transcript": "maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau", "confidence": 0.93855613 } ], "resultEndTime": "12.630s", "languageCode": "fr-fr" } ], "totalBilledTime": "15s" }

Questa è una frase tratta da un famoso racconto per bambini francese di Jean de la Fontaine. Se hai dei file audio in un'altra lingua, puoi provare ad aggiungerli a Cloud Storage e modificare il parametro languageCode nella richiesta.

Nota: per saperne di più sulle restrizioni e sui limiti di utilizzo dell'API Cloud Speech-to-Text, consulta la documentazione sulle quote e sui limiti.

Chiama l'API Speech per la lingua francese

Complimenti!

Hai eseguito la trascrizione della voce in testo con l'API Speech. Hai trasmesso all'API l'URI Cloud Storage del tuo file audio e hai esaminato l'alternativa di trasmettere una stringa codificata in base64 dei tuoi contenuti audio.

Prossimi passi/Scopri di più

Consulta questi tutorial nella documentazione.
Prova l'API Cloud Vision e l'API Natural Language.

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 4 novembre 2024

Ultimo test del lab: 4 novembre 2024

Copyright 2025 Google LLC. Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.

Trascrizione della voce in testo con l'API Cloud Speech

Trascrizione della voce in testo con l'API Cloud Speech

GSP048

Panoramica

Obiettivi didattici

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Come avviare il lab e accedere alla console Google Cloud

Attività 1: crea una chiave API

Attività 2: crea la richiesta API

Attività 3: chiama l'API Speech-to-Text

Attività 4: esegui la trascrizione della voce in testo in lingue diverse

Complimenti!

Prossimi passi/Scopri di più

Formazione e certificazione Google Cloud

Prima di iniziare

Utilizza la navigazione privata

Accedi alla console

Utilizza la navigazione privata per eseguire il lab