GSP048

Panoramica
L'API Speech-to-Text ti consente di trascrivere file audio in file di testo in oltre 80 lingue.
In questo lab invierai un file audio all'API Speech per la trascrizione.
Obiettivi didattici
In questo lab imparerai a:
- Creare una richiesta all'API Speech-to-Text e chiamare l'API con
curl
- Chiamare l'API Speech-to-Text con file audio in una lingua diversa
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Inizia il lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
- Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: per eseguire questo lab, utilizza una finestra del browser in modalità di navigazione in incognito (consigliata) o privata. Ciò evita conflitti tra il tuo account personale e l'account studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
- È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: utilizza solo l'account studente per questo lab. Se utilizzi un altro account Google Cloud, potrebbero essere addebitati costi su quell'account.
Come avviare il lab e accedere alla console Google Cloud
-
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si aprirà una finestra di dialogo per permetterti di selezionare il metodo di pagamento.
A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
- Il pulsante Apri la console Google Cloud
- Tempo rimanente
- Credenziali temporanee da utilizzare per il lab
- Altre informazioni per seguire questo lab, se necessario
-
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
-
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}}
Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
-
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}}
Puoi trovare la Password anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud.
Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
-
Fai clic nelle pagine successive:
- Accetta i termini e le condizioni.
- Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
- Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Nota: per accedere ai prodotti e ai servizi Google Cloud, fai clic sul menu di navigazione o digita il nome del servizio o del prodotto nel campo Cerca.
Attività 1: crea una chiave API
Poiché utilizzi curl
per inviare una richiesta all'API Speech-to-Text, devi generare una chiave API che dovrai passare nell'URL della richiesta.
-
Per creare una chiave API, nel menu di navigazione (
) fai clic su API e servizi > Credenziali.
-
Fai clic su Crea credenziali e seleziona Chiave API.
-
Copia e registra la chiave appena generata per utilizzarla in un secondo momento in questo lab.
-
Fai clic su Chiudi.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Crea una chiave API
Ora salva la chiave API come variabile di ambiente per evitare di doverne inserire il valore in ogni richiesta.
- Per eseguire i passaggi successivi, connettiti a linux-instance di cui è stato eseguito il provisioning per te tramite SSH:
Nel menu di navigazione (
), fai clic su Compute Engine > Istanze VM.
Nota la VM linux-instance nell'elenco Istanze VM. I dettagli della VM si trovano a destra del suo nome.
- Fai clic su SSH a destra del nome della VM linux-instance.
Si apre una shell interattiva. Utilizzala per eseguire le operazioni successive.
- Nella shell (SSH), esegui il comando seguente sostituendo
<your_api_key>
con la chiave che hai appena copiato:
export API_KEY=<YOUR_API_KEY>
Attività 2: crea la richiesta API
Nota: questo lab utilizza un file pre-registrato disponibile in Cloud Storage: gs://cloud-samples-data/speech/brooklyn_bridge.flac
. Prima di inviarlo all'API Speech-to-Text, puoi ascoltarlo.
- Crea la tua richiesta all'API in un file
request.json
. Crea il file request.json
:
touch request.json
- Apri il file utilizzando il tuo editor della riga di comando preferito (
nano
, vim
, emacs
) o gcloud
, quindi aggiungi quanto segue al file request.json
utilizzando il valore dell'uri
del file audio RAW di esempio:
{
"config": {
"encoding":"FLAC",
"languageCode": "en-US"
},
"audio": {
"uri":"gs://cloud-samples-data/speech/brooklyn_bridge.flac"
}
}
- Se necessario, salva il file.
Il corpo della richiesta contiene un oggetto config
e un oggetto audio
.
In config
, indichi all'API Speech-to-Text come elaborare la richiesta:
- Il parametro
encoding
indica all'API quale tipo di codifica audio viene utilizzato durante l'invio del file all'API. FLAC
è il tipo di codifica per i file .raw. Scopri di più sui tipi di codifica nel documento di riferimento di RecognitionConfig.
- Se non viene specificato nella richiesta,
languageCode
verrà utilizzato per impostazione predefinita in inglese.
Esistono altri parametri che puoi aggiungere all'oggetto config
, ma encoding
è l'unico obbligatorio.
Nell'oggetto audio
, passi all'API l'URI del file audio archiviato in Cloud Storage per questo lab.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Crea una richiesta all'API Speech
Ora è tutto pronto per chiamare l'API Speech-to-Text.
Attività 3: chiama l'API Speech-to-Text
- Utilizza il seguente comando
curl
(tutto in un'unica riga di comando) per passare all'API il corpo della richiesta insieme alla variabile di ambiente della chiave API:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json
La risposta viene memorizzata in un file denominato result.json.
- Per visualizzare i contenuti del file, puoi utilizzare:
cat result.json
La risposta restituita dal comando curl
ha il seguente aspetto:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98216057
}
],
"resultEndTime": "1.770s",
"languageCode": "en-us"
}
],
"totalBilledTime": "15s"
}
Il valore transcript
restituisce la trascrizione del testo del file audio eseguita dall'API Speech e il valore confidence
indica in che misura l'API è sicura di aver trascritto l'audio in modo accurato.
Nota che la nostra richiesta precedente conteneva una chiamata al metodo syncrecognize
. L'API Speech-to-Text supporta la trascrizione sincrona e asincrona della voce in testo.
In questo esempio è stato utilizzato un file audio completo, ma puoi usare anche il metodo syncrecognize
per eseguire una trascrizione della voce in testo in streaming mentre l'utente sta ancora parlando.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Chiama l'API Speech per la lingua inglese
Attività 4: esegui la trascrizione della voce in testo in lingue diverse
Sei multilingue? L'API Speech-to-Text supporta la trascrizione della voce in testo in oltre 100 lingue.
Puoi modificare il parametro language_code
in request.json
. Puoi trovare un elenco delle lingue supportate nella guida Supporto delle lingue.
Prova un file audio in francese (fai clic qui per ascoltarlo in anteprima).
- Modifica
request.json
e imposta i contenuti come segue:
{
"config": {
"encoding":"FLAC",
"languageCode": "fr"
},
"audio": {
"uri":"gs://cloud-samples-data/speech/corbeau_renard.flac"
}
}
-
Chiama Speech-to-Text eseguendo di nuovo il comando curl
.
-
Guarda i risultati:
cat result.json
Dovresti vedere la seguente risposta:
{
"results": [
{
"alternatives": [
{
"transcript": "maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau",
"confidence": 0.93855613
}
],
"resultEndTime": "12.630s",
"languageCode": "fr-fr"
}
],
"totalBilledTime": "15s"
}
Questa è una frase tratta da un famoso racconto per bambini francese di Jean de la Fontaine. Se hai dei file audio in un'altra lingua, puoi provare ad aggiungerli a Cloud Storage e modificare il parametro languageCode
nella richiesta.
Nota: per saperne di più sulle restrizioni e sui limiti di utilizzo dell'API Cloud Speech-to-Text, consulta la documentazione sulle quote e sui limiti.
Chiama l'API Speech per la lingua francese
Complimenti!
Hai eseguito la trascrizione della voce in testo con l'API Speech. Hai trasmesso all'API l'URI Cloud Storage del tuo file audio e hai esaminato l'alternativa di trasmettere una stringa codificata in base64 dei tuoi contenuti audio.
Prossimi passi/Scopri di più
Formazione e certificazione Google Cloud
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 4 novembre 2024
Ultimo test del lab: 4 novembre 2024
Copyright 2025 Google LLC. Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.