チェックポイント
Create an API Key
/ 30
Create your Speech API request
/ 30
Call the Speech API for English language
/ 20
Call the Speech API for French language
/ 20
Cloud Speech API を使用した音声文字変換
GSP048
概要
Speech-to-Text API を使用すると、音声ファイルを 80 以上の言語のテキスト ファイルに文字変換できます。
このラボでは、音声ファイルを Speech API に送信して文字変換を行います。
学習内容
このラボでは、次のタスクを行う方法について学びます。
- Speech-to-Text API リクエストを作成し、
curl
を使用して API を呼び出す - 別の言語の音声ファイルを使用して Speech-to-Text API を呼び出す
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
タスク 1. API キーを作成する
curl
を使用して Speech-to-Text API にリクエストを送信するため、リクエスト URL に渡す API キーを生成する必要があります。
-
API キーを作成するには、ナビゲーション メニュー()で、[API とサービス] > [認証情報] をクリックします。
-
[認証情報を作成] をクリックし、[API キー] を選択します。
-
このラボで後で使用できるように、生成したキーをコピーして記録します。
-
[閉じる] をクリックします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
ここで、API キーを環境変数に保存して、各リクエストに API キーの値を挿入しなくても済むようにします。
- 以降の手順を行うために、プロビジョニングされた linux-instance に SSH 経由で接続します。
ナビゲーション メニュー()で、[Compute Engine] > [VM インスタンス] をクリックします。
[VM インスタンス] の一覧に、linux-instance VM が表示されていることを確認します。VM の詳細は VM 名の右側から次のように確認できます。
- VM 名 linux-instance の右側にある [SSH] をクリックします。
インタラクティブ シェルが開きます。このインタラクティブ シェルを使用して、次の操作を行います。
- シェル(SSH)で以下のコマンドを実行します。
<YOUR_API_KEY>
の部分は、先ほどコピーしたキーに置き換えてください。
タスク 2. API リクエストを作成する
gs://cloud-samples-data/speech/brooklyn_bridge.flac
)に用意されています。Speech-to-Text API に送信する前に、このファイルを聴くことができます。
- API へのリクエストは、
request.json
ファイルで構築します。request.json
ファイルを作成します。
- 任意のコマンドライン エディタ(
nano
、vim
、emacs
)またはgcloud
を使用してファイルを開き、request.json
ファイルに次の行を追加します。ここでは、サンプルの RAW 音声ファイルのuri
値を使用しています。
- 必要に応じてファイルを保存します。
リクエスト本文には config
オブジェクトと audio
オブジェクトが記述されています。
config
では、リクエストの処理方法を Speech-to-Text API に指示します。
-
encoding
パラメータでは、ファイルを送信するときに使用する音声ファイルのエンコード タイプを API に指定します。FLAC
は、.raw ファイルのエンコード タイプです(エンコード タイプの詳細については、RecognitionConfig リファレンスをご覧ください)。 -
languageCode
がリクエストに含まれていない場合は、デフォルトで英語に設定されます。
config
オブジェクトに追加できるパラメータはほかにもありますが、必須パラメータは encoding
だけです。
audio
オブジェクトでは、このラボ向けに Cloud Storage に保管されている音声ファイルの uri を API に渡します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
これで Speech-to-Text API を呼び出す準備が整いました。
タスク 3. Speech-to-Text API を呼び出す
- 次の
curl
コマンドを実行して、リクエスト本文を API キーの環境変数とともに API に渡します(コマンドは 1 行で入力してください)。
レスポンスは result.json という名前のファイルに保管されます。
- ファイルの内容を表示するには、次のコマンドを使用します。
curl
コマンドが返すレスポンスは次のようになります。
Speech API によって音声ファイルから文字変換されたテキストは、transcript
値に入れて返されます。confidence
値は、API がどの程度の精度で音声を文字変換できたと考えられるかを示します。
上記のリクエストでは、syncrecognize
メソッドを呼び出している点に注意してください。Speech-to-Text API は、同期と非同期の両方の音声文字変換をサポートしています。
この例では、録音済みの音声ファイルが使用されましたが、ユーザーが話しているときにストリーミング音声の文字変換を行う場合にも、syncrecognize
メソッドを使用できます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 4. Speech-to-Text を使用して、さまざまな言語への音声文字変換を行う
Speech-to-Text API は 100 以上の言語の音声文字変換をサポートしているので、多言語対応が可能です。
多言語に対応するには、request.json
の language_code
パラメータを変更します。サポート対象言語の一覧については、言語サポートガイドをご覧ください。
フランス語の音声ファイルをお試しください(プレビューをこちらで聴くことができます)。
-
request.json
を編集して内容を次のように変更します。
-
もう一度
curl
コマンドを実行して、Speech-to-Text を呼び出します。 -
結果を確認します。
次のようなレスポンスが表示されます。
これは、フランスで有名なある童話(著者: Jean de la Fontaine)の一文です。別の言語の音声ファイルがある場合は、Cloud Storage に追加してリクエストの languageCode
パラメータを変更してみてください。
お疲れさまでした
このラボでは、Speech API で音声文字変換を行いました。音声ファイルの Cloud Storage URI を API に渡しました。また、base64 でエンコードされた音声コンテンツの文字列を渡すという代替方法についても確認しました。
クエストを完了する
このセルフペース ラボは、「Intro to ML: Language Processing」クエストと「Language, Speech, Text & Translation with Google Cloud APIs」クエストの一部です。クエストとは学習プログラムを構成する一連のラボのことで、修了するとその成果が認められてバッジが贈られます。バッジは公開して、オンライン レジュメやソーシャル メディア アカウントにリンクできます。このラボの修了後、このラボが含まれるクエストに登録すれば、すぐにクレジットを受け取ることができます。受講可能な全クエストについては、Google Cloud Skills Boost カタログをご覧ください。
次のラボを受講する
「Speech-to-Text の精度測定と改善」に進んでクエストを続けるか、以下のラボをお試しください。
次のステップと詳細情報
- ドキュメント内のチュートリアルをご確認ください。
- Cloud Vision API と Natural Language API をお試しください。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2023 年 9 月 20 日
ラボの最終テスト日: 2023 年 9 月 20 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。