Jamshidi Babak
メンバー加入日: 2019
シルバーリーグ
4700 ポイント
メンバー加入日: 2019
Google Cloud で機械学習を実装する際のベスト プラクティスには何があるでしょうか。Vertex AI とは何であり、このプラットフォームを使用してコードを 1 行も記述せずに AutoML 機械学習モデルを迅速に構築、トレーニング、デプロイするにはどうすればよいでしょうか。機械学習とはどのようなもので、どのような問題の解決に役立つのでしょうか。 Google では機械学習について独自の視点で考えています。マネージド データセット、特徴量ストア、そしてコードを 1 行も記述せずに迅速に機械学習モデルを構築、トレーニング、デプロイする手段を 1 つにまとめた統合プラットフォームを提供するとともに、データにラベル付けし、TensorFlow、SciKit Learn、Pytorch、R やその他のフレームワークを使用して Workbench ノートブックを作成できるようにすることが、Google の考える機械学習の在り方です。Google の Vertex AI プラットフォームでは、カスタムモデルをトレーニングしたり、コンポーネント パイプラインを構築したりすることもできます。さらに、オンライン予測とバッチ予測の両方を実施できます。このコースでは、候補となるユースケースを機械学習で学習できる形に変換する 5 つのフェーズについても説明し、これらのフェーズを省略しないことが重要である理由について論じます。最後に、機械学習によって増幅される可能性のあるバイアスの認識と、それを識別する方法について説明します。
Dataflow シリーズの最後のコースでは、Dataflow 運用モデルのコンポーネントを紹介します。パイプラインのパフォーマンスのトラブルシューティングと最適化に役立つツールと手法を検証した後で、Dataflow パイプラインのテスト、デプロイ、信頼性に関するベスト プラクティスについて確認します。最後に、数百人のユーザーがいる組織に対して Dataflow パイプラインを簡単に拡張するためのテンプレートについても確認します。これらの内容を習得することで、データ プラットフォームの安定性を保ち、予期せぬ状況に対する回復力を確保できるようになります。
Dataflow コースシリーズの 2 回目である今回は、Beam SDK を使用したパイプラインの開発について詳しく説明します。まず、Apache Beam のコンセプトについて復習します。次に、ウィンドウ、ウォーターマーク、トリガーを使用したストリーミング データの処理について説明します。さらに、パイプラインのソースとシンクのオプション、構造化データを表現するためのスキーマ、State API と Timer API を使用してステートフル変換を行う方法について説明します。続いて、パイプラインのパフォーマンスを最大化するためのベスト プラクティスを再確認します。コースの終盤では、Beam でビジネス ロジックを表現するための SQL と DataFrame、および Beam ノートブックを使用してパイプラインを反復的に開発する方法を説明します。
BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング」のスキルバッジを獲得できる中級コースを修了すると、 Dataprep by Trifacta を使用した BigQuery へのデータ変換パイプラインの構築、 Cloud Storage、Dataflow、BigQuery を使用した抽出、変換、読み込み(ETL)ワークフローの構築、 BigQuery ML を使用した ML モデルの構築に関するスキルを実証できます。 スキルバッジは、Google Cloud のプロダクトとサービスの習熟度を示す Google Cloud 発行の限定デジタルバッジで、 インタラクティブなハンズオン環境での知識の応用力を証明するものです。スキルバッジ コースと 最終評価チャレンジラボを完了し、デジタルバッジを獲得して ネットワークで共有しましょう。
このコースは、Dataflow を使用したサーバーレスのデータ処理に関する 3 コースシリーズのパート 1 です。この最初のコースでは、始めに Apache Beam とは何か、そして Dataflow とどのように関係しているかを復習します。次に、Apache Beam のビジョンと Beam Portability フレームワークの利点について説明します。Beam Portability フレームワークによって、デベロッパーが好みのプログラミング言語と実行バックエンドを使用できるビジョンが実現します。続いて、Dataflow によってどのように費用を節約しながらコンピューティングとストレージを分離できるか、そして識別ツール、アクセスツール、管理ツールがどのように Dataflow パイプラインと相互に機能するかを紹介します。最後に、Dataflow でそれぞれのユースケースに合った適切なセキュリティ モデルを実装する方法について学習します。
ML をデータ パイプラインに組み込むと、データから分析情報を抽出する能力を向上できます。このコースでは、Google Cloud でデータ パイプラインに ML を含める複数の方法について説明します。カスタマイズがほとんど、またはまったく必要ない場合のために、このコースでは AutoML について説明します。よりカスタマイズされた ML 機能については、Notebooks と BigQuery の機械学習(BigQuery ML)を紹介します。また、Vertex AI を使用して ML ソリューションを本番環境に導入する方法も説明します。
ストリーミングによって企業が事業運営に関するリアルタイムの指標を取得できるようになり、ストリーミング データの処理を行う機会が増えてきました。このコースでは、Google Cloud でストリーミング データ パイプラインを構築する方法について学習します。受信ストリーミング データの処理のために Pub/Sub について説明します。また、このコースでは、Dataflow を使用してストリーミング データの集計や変換を行う方法、処理済みのレコードを分析用に BigQuery や Bigtable に保存する方法についても説明します。さらに、Qwiklabs を使用して Google Cloud でストリーミング データ パイプラインのコンポーネントを構築する実践演習を行います。
通常、データ パイプラインは、「抽出、読み込み(EL)」、「抽出、読み込み、変換(ELT)」、「抽出、変換、読み込み(ETL)」のいずれかの考え方に分類できます。このコースでは、バッチデータではどの枠組みを、どのような場合に使用するのかについて説明します。本コースではさらに、BigQuery、Dataproc 上での Spark の実行、Cloud Data Fusion のパイプラインのグラフ、Dataflow でのサーバーレスのデータ処理など、データ変換用の複数の Google Cloud テクノロジーについて説明します。また、Qwiklabs を使用して Google Cloud でデータ パイプラインのコンポーネントを構築する実践演習を行います。
ビッグデータ、機械学習、科学的データ。完璧な組み合わせといえます。このクエストは上級レベルであり、実際の科学的データセットを使用するユースケースに BigQuery、Dataproc、Tensorflow などの GCP サービスを当てはめ、実践的な演習を行います。「科学的データ処理」では、地震データの分析や衛星画像の集約といったタスクを実践し、ビッグデータと機械学習に関するスキルの強化を図ります。これにより、多岐にわたる科学的分野でさまざまな問題に取り組むことができるようになります。
すべてのデータ パイプラインには、データレイクとデータ ウェアハウスという 2 つの主要コンポーネントがあります。このコースでは、各ストレージ タイプのユースケースを紹介し、Google Cloud で利用可能なデータレイクとデータ ウェアハウスのソリューションを技術的に詳しく説明します。また、データ エンジニアの役割や、効果的なデータ パイプラインが事業運営にもたらすメリットについて確認し、クラウド環境でデータ エンジニアリングを行うべき理由を説明します。 これは「Data Engineering on Google Cloud」シリーズの最初のコースです。このコースを修了したら、「Google Cloud でのバッチデータ パイプラインの構築」コースに登録してください。
「BigQuery でデータ ウェアハウスを構築する」スキルバッジを獲得できる中級コースを修了すると、 データの結合による新しいテーブルの作成、結合のトラブルシューティング、UNION を使用したデータの連結、日付パーティション分割テーブルの作成、 BigQuery での JSON、配列、構造体の操作に関するスキルを証明できます。 スキルバッジは、Google Cloud の プロダクトとサービスに関する習熟度を示す Google Cloud 発行の限定デジタルバッジです。 これは、インタラクティブなハンズオン環境での知識の応用力を 証明するものです。このスキルバッジ コースと最終評価チャレンジラボを修了し、 デジタルバッジを獲得してネットワークで共有しましょう。
このコースでは、Professional Data Engineer(PDE)認定資格試験に向けた学習計画を作成できます。学習者は、試験の範囲を把握できます。また、試験への準備状況を把握して、個々の学習計画を作成します。
このコースでは、データから AI へのライフサイクルをサポートする Google Cloud のビッグデータと ML のプロダクトやサービスを紹介します。また、Google Cloud で Vertex AI を使用してビッグデータ パイプラインと ML モデルを作成する際のプロセス、課題、メリットについて説明します。
This course is intended to give architects, engineers, and developers the skills required to help enterprise customers architect, plan, execute, and test database migration projects. Through a combination of presentations, demos, and hands-on labs participants move databases to Google Cloud while taking advantage of various services. This course covers how to move on-premises, enterprise databases like SQL Server to Google Cloud (Compute Engine and Cloud SQL) and Oracle to Google Cloud bare metal.
「Looker ダッシュボードとレポート用にデータを準備する」スキルバッジを獲得できる入門コースを修了すると、 データのフィルタ、並べ替え、ピボット、異なる Looker Explore から取得した結果の統合、 関数と演算子を使用してデータを分析し可視化するための Looker ダッシュボードとレポートの作成に関するスキルを実証できます。 スキルバッジは、Google Cloud のプロダクトとサービスの習熟度を示す Google Cloud 発行の限定デジタルバッジで、 インタラクティブなハンズオン環境での 知識の応用力を証明するものです。このスキルバッジ コースと 最終評価チャレンジラボを完了し、スキルバッジを獲得して ネットワークで共有しましょう。
「Google Cloud の ML API 用にデータを準備」コースの入門スキルバッジを獲得できるアクティビティを修了すると、 Dataprep by Trifacta を使用したデータのクリーニング、Dataflow でのデータ パイプラインの実行、Dataproc でのクラスタの作成と Apache Spark ジョブの実行、 Cloud Natural Language API、Google Cloud Speech-to-Text API、Video Intelligence API などの ML API の呼び出しに関するスキルを証明できます。 スキルバッジは、Google Cloud のプロダクトとサービスの習熟度を示す Google Cloud 発行の限定デジタルバッジで、 インタラクティブなハンズオン環境での知識の応用力を証明するものです。このスキルバッジ コースと最終評価チャレンジラボを修了し、 スキルバッジを獲得してネットワークで共有しましょう。
ビッグデータ、ML、AI は今日のコンピュータ業界ではホットなトピックですが、 これらの分野は非常に専門性が高く、 入門レベルの教材を見つけるのは困難です。幸いなことに、Google Cloud はこうした分野でユーザー フレンドリーなサービスを提供しており、 この入門レベルのコースを通じて、BigQuery、Cloud Speech API、 Video Intelligence などのツールを使い始めるための第一歩を踏み出せます。
Complete the introductory Create and Manage AlloyDB Instances skill badge to demonstrate skills in the following: performing core AlloyDB operations and tasks, migrating to AlloyDB from PostgreSQL, administering an AlloyDB database, and accelerating analytical queries using the AlloyDB Columnar Engine.
データ ウェアハウスの構築または最適化を検討している場合は、BigQuery を使ったデータの抽出、変換、Google Cloud への読み込みに関するおすすめの方法を学びます。この一連のインタラクティブなラボでは、各種の大規模な BigQuery 一般公開データセットを使って独自のデータ ウェアハウスを作成、最適化します。BigQuery は、Google が低料金で提供する NoOps のフルマネージド分析データベースです。インフラストラクチャを所有して管理したり、データベース管理者を配置したりすることなく、テラバイト単位の大規模なデータでクエリを実行できます。また、SQL が採用されており、従量課金制モデルでご利用いただけます。このような特徴を活かし、お客様は有用な情報を得るためのデータ分析に専念できます。
Want to scale your data analysis efforts without managing database hardware? Learn the best practices for querying and getting insights from your data warehouse with this interactive series of BigQuery labs. BigQuery is Google's fully managed, NoOps, low cost analytics database. With BigQuery you can query terabytes and terabytes of data without having any infrastructure to manage or needing a database administrator. BigQuery uses SQL and can take advantage of the pay-as-you-go model. BigQuery allows you to focus on analyzing data to find meaningful insights.