チェックポイント
Enable the Vertex AI API
/ 25
Extract the content of the image
/ 25
Create prompts with text
/ 25
Create conversations with chat prompt
/ 25
Vertex AI Studio を使ってみる
GSP1154
概要
Vertex AI は、予測 AI と生成 AI の両方の機能を備えた包括的な ML 開発プラットフォームです。予測を目的とする予測 ML モデルをトレーニング、評価、デプロイできます。また、このプラットフォームを使用して、生成 AI モデルの検出、チューニング、サービングを行ってコンテンツを生成することもできます。
Vertex AI Studio を使用すると、生成 AI モデルを迅速にテストおよびカスタマイズし、モデルの機能をアプリケーションで利用できます。UI(ユーザー インターフェース)とコーディング例の両方を含むさまざまなツールとリソースが用意されているため、ML の経験がなくても生成 AI を簡単に使い始めることができます。
このハンズオンラボでは、Vertex AI Studio を使用して最先端の生成 AI モデルの可能性を引き出す方法を紹介します。Gemini マルチモーダルについて学習し、これを使って画像の分析、プロンプトの設計、会話の生成を Google Cloud コンソールで直接行います。API や Python SDK は不要です。直感的なユーザー インターフェースですべての操作を実行できます。
目標
このラボでは、次のタスクを行います。
- Gemini マルチモーダルを使用して画像を分析する。
- マルチモーダル機能を試す。
- 自由形式モードと構造化モードでプロンプトを設計する。
- 会話を生成する。
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google コンソールを開く] をクリックします。 ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、[ラボの詳細] パネルから [ユーザー名] をコピーして [ログイン] ダイアログに貼り付けます。[次へ] をクリックします。
-
[ラボの詳細] パネルから [パスワード] をコピーして [ようこそ] ダイアログに貼り付けます。[次へ] をクリックします。
重要: 認証情報は左側のパネルに表示されたものを使用してください。Google Cloud Skills Boost の認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後このタブで Cloud Console が開きます。
Vertex AI API を有効にする
-
Google Cloud コンソールで、上部の検索バーに「Vertex AI API」と入力します。
-
[MARKETPLACE] の下で検索結果の「Vertex AI API」をクリックします。
-
[有効にする] をクリックします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 1. Gemini マルチモーダルを使用して画像を分析する
- Google Cloud コンソールで、ナビゲーション メニュー()> [AI] > [Vertex AI] > [Vertex AI Studio] > [概要] に移動します。
マルチモーダル、言語、ビジョン、音声の 4 つの機能があります。このラボでは、最初の 2 つに焦点を当てます。
- [Multimodal Powered by Gemini] で [GEMINI を試す] をクリックします。
-
プロンプトに「Image analysis」という名前を付けます。
-
サンプル画像をダウンロードします。時刻表の画像を右クリックして、パソコンに保存します。
- 画像のタイトルを生成します。右上にある [メディアを挿入] > [パソコンからアップロード] をクリックし、時刻表の画像をアップロードします。メディアには、画像または動画を使用できます。次の内容をコピーして貼り付け、[送信] をクリックします。
または、次のように具体的に指定します。
タイトルは期待どおりでしたか?プロンプトを変更して、異なる結果が出力されるかどうかを確認してください。
- 画像の説明を生成します。前のプロンプトを以下の内容に置き換えて、[送信] をクリックします。
- パラメータをチューニングします。[Temperature] を左(0)から右(1)にスクロールして、温度を調整します。プロンプトを再送信し、前と比較して結果に変化があるかどうかを確認します。
- 画像からテキストを抽出します。前のプロンプトを以下の内容に置き換えます。
さらに、出力をリスト形式にする場合は、前のプロンプトを以下の内容に置き換えます。
さまざまなプロンプトを試してみましょう。前のプロンプトと比べて結果はどのように異なりますか?
- 画像にある情報を分析します。前のプロンプトを以下の内容に置き換えます。
結果は期待どおりですか?各種タスクにさまざまなプロンプトを試してみることを強くおすすめします。また、温度設定を変更して結果の変化を確認してみましょう。
- プロンプトを保存します。プロンプトの設計が完了したら、プロンプトを保存するために右上の [保存] をクリックします。さらに [保存] をクリックして確定します。保存したプロンプトを確認するには、[マルチモーダル] > [マイプロンプト] に移動します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 2. マルチモーダル機能を試す
Gemini マルチモーダルでは、画像やテキストだけでなく、動画を入力として受け入れて、出力としてテキストを生成できます。短い動画をアップロードして、さまざまなプロンプトでマルチモーダル機能を試してみることをおすすめします。サンプル動画として、gs://spls/gsp154/video/train.mp4
(プレビュー)を使用できます。
Gemini を活用したマルチモーダルには、画像からストーリーを作成する機能、動画を分析する機能、マルチメディア広告を生成する機能など、さまざまな機能があります。[マルチモーダル] > [サンプル プロンプト] をクリックすると、マルチモーダルのその他のユースケースを確認できます。詳しくは、マルチモーダル プロンプトを設計するをご覧ください。
タスク 3. 自由形式モードと構造化モードでプロンプトを設計する
- Vertex AI のメニューで [Vertex AI Studio] > [概要] ページに移動し、[言語 Powered by Gemini] で [開く] をクリックします。
プロンプトを作成する
プロンプトを作成することで、コードの生成を含む、ビジネス ユースケースに関連するタスクのためのプロンプトを設計できます。
下の画像に示す [テキスト プロンプト] ボタンをクリックします。UI はこのスクリーンショットと若干異なる場合があります。
ページの右側にある [?] ボタンにカーソルを合わせるかクリックすると、それぞれのフィールドや、[Temperature]、[トークンの上限] などのパラメータの詳細を参照できます。
プロンプト設計
質問などの任意の入力テキストをモデルにフィードできます。これにより、モデルは、プロンプトの構造に基づいてレスポンスを提供できます。モデルから最も望ましいレスポンスを得るための最良の入力テキスト(プロンプト)を解明して設計するプロセスはプロンプト設計と呼ばれます。
プロンプトを設計する最良の方法はまだありません。モデルのレスポンスを形成するために使用できる方法は 3 つあります。
- ゼロショット プロンプト - この方法では、タスクを説明するプロンプトのみを LLM に与え、追加データは与えません。たとえば、LLM に質問に回答させたい場合は、単に「プロンプト設計とは何ですか」のようにプロンプトします。
- ワンショット プロンプト - この方法では、行ってほしい特定のタスクの 1 つの例を LLM に与えます。たとえば、LLM に詩を書かせたい場合は、詩の例を 1 つ与えます。
- 少数ショット プロンプト - この方法では、行ってほしい特定のタスクの少数の例を LLM に与えます。たとえば、LLM にニュース記事を書かせたい場合は、数件のニュース記事を入力として与えます。
[自由形式] タブと [構造化] タブもあります。プロンプトはこれらの 2 つのモードを使って設計できます。
- 自由形式 - このモードでは自由かつ簡単にプロンプトを設計できます。例を追加しない、小規模で試験的なプロンプトに適しています。今回、ゼロショット プロンプトについて確認するときにこれを使います。
- 構造化 - このモードでは使いやすいテンプレート方式でプロンプトを設計できます。また、プロンプトにコンテキストと複数の例を追加できます。これはワンショット プロンプトと少数ショット プロンプトの方法で特に便利です。こちらも後で確認していきます。
自由形式モード
自由形式モードで、ゼロショット プロンプトを試します。
- 次の内容をプロンプトの入力フィールドにコピーします。現在のデフォルトのモデル設定(gemini-1.0-pro-002)はそのままにします。
注: モデル名は、新しいモデルのリリースに伴って変更される場合があります。
- ページの右側の [送信] ボタンをクリックします。
モデルは用語「prompt gallery」の一般的な定義を回答します。
いくつかの操作を試して動作を確認してください。
- [
トークンの制限
] パラメータを1
にして [送信] ボタンをクリック - [
トークンの上限
] パラメータを1024
にして [送信] ボタンをクリック - [
Temperature
] パラメータを0.5
にして [送信] ボタンをクリック - [
Temperature
] パラメータを1.0
にして [送信] ボタンをクリック
パラメータを変更することでレスポンスがどのように変わるかを確認してください。
構造化モード
構造化モードでは、より組織化された方法でプロンプトを設計できます。ここでは、[Context] と [Examples] の入力フィールドにそれぞれ対応する内容を入力できます。ここでワンショット プロンプトと少数ショット プロンプトについて確認しておきましょう。
このセクションでは、モデルに文を完成させるように求めます。
- テキスト プロンプトのウィンドウに戻ります。
- ページ上部にある、[構造化] タブをクリックします。
- [Context] からテキストを削除します。
- [Test] フィールドの [入力] フィールドに次の内容をコピーします。
- ページの右側の [送信] ボタンをクリックします。
モデルは文を補完するのではなく、全文をレスポンスとして返しました。これは求めている結果ではありません。モデルのレスポンスに影響を与えるために、ワンショット プロンプトを試してみます。今回はモデルの出力のベースとなる 1 つの例を追加します。
[Examples] フィールドで次の操作を行います。
- 次の内容を [入力] フィールドに追加します。
- 次の内容を [出力] フィールドに追加します。
- ページの右側の [送信] ボタンをクリックします。
モデルがレスポンスを生成する方法に影響を与えることに成功しました。
次の演習ではモデルを使用して文の感情分析を行い、映画のレビューが好意的かどうかを判断させてみます。
- テキスト プロンプトのウィンドウに戻ります。
- [Examples] フィールドの下の [入力] と [出力] に先ほど入力した green grass に関するテキストを削除します。
- [Test] フィールドの [入力] フィールドに次のプロンプトをコピーします。
- ページの右側の [送信] ボタンをクリックします。
情報が不足しているため、感情分析が求められていることがモデルに伝わりませんでした。この状況は、求める結果の例をいくつかモデルに与えることで改善できます。
下の画像に示されている例を追加してみましょう。
入力 | 出力 |
---|---|
A well-made and entertaining film | positive |
I fell asleep after 10 minutes | negative |
The movie was ok | neutral |
ページの右側の [送信] ボタンをクリックします。
モデルによって文の感情が示されるようになりました。「It was a time well spent!」という文について、感情は「positive」とラベル付けされています。
新しく設計したプロンプトを保存することもできます。プロンプトを保存するには、「sentiment analysis test」などの任意の名前を付けて [保存] ボタンをクリックし、ラボのリージョン
(保存中にエラーが発生した場合は [再試行] をクリックしてください)
保存されたプロンプトは [マイプロンプト] タブに表示されます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 4. 会話を生成する
チャットのプロンプトを作成することで、モデルと自由形式でチャットできます。モデルはこれまでの会話内容を追跡し、コンテキストに応じて回答します。
- [言語] ページに戻ります。
- 新しいチャット プロンプトを作成するために、[テキスト チャット] ボタンをクリックします。
- [モデル] で、[chat-bison(最新モデル)] を選択します。 新しいチャット プロンプトのページが表示されます。
このセクションでは、チャットにコンテキストを追加して、提供されたコンテキストに基づいてモデルが回答できるようにします。
- 次のコンテキストを [Context] フィールドに追加します。
- 次のテキストを [レスポンス] の下のチャットボックスに追加します。
- Enter キーを押すか、「メッセージを送信」ボタン(右矢印)をクリックします。
モデルは入力された追加コンテキストを考慮して制約の範囲内で質問に答えます。
- プロンプトに任意の名前を付けて [保存] ボタンをクリックし、ラボのリージョン
を選択します。[保存] をクリックします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
お疲れさまでした
このラボでは、マルチモーダルを使用して画像を分析する方法、マルチモーダル機能を試す方法、プロンプトを作成してテストする方法、会話の生成方法を学習しました。これで、Vertex AI Studio と Gemini マルチモーダルの使用についての初歩を学びました。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 4 月 17 日
ラボの最終テスト日: 2024 年 4 月 17 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。