Dimo Peter
メンバー加入日: 2023
メンバー加入日: 2023
このコースでは、BigQuery の生成 AI タスクで AI / ML モデルを使用する方法をご紹介します。顧客管理を含む実際のユースケースを通して、Gemini モデルを使用してビジネス上の問題を解決するワークフローを学びます。また、理解を深めるために、このコースでは SQL クエリと Python ノートブックの両方を使用したコーディング ソリューションの詳細な手順も提供しています。
このコースでは、データを AI 活用へつなげるためのワークフローに役立つ AI 搭載の機能スイート、Gemini in BigQuery について説明します。この機能スイートには、データの探索と準備、コード生成とトラブルシューティング、ワークフローの検出と可視化などが含まれます。このコースでは、概念の説明、実際のユースケース、ハンズオンラボを通じて、データ実務者が生産性を高め、開発パイプラインを迅速化できるよう支援します。
Dataflow シリーズの最後のコースでは、Dataflow 運用モデルのコンポーネントを紹介します。パイプラインのパフォーマンスのトラブルシューティングと最適化に役立つツールと手法を検証した後で、Dataflow パイプラインのテスト、デプロイ、信頼性に関するベスト プラクティスについて確認します。最後に、数百人のユーザーがいる組織に対して Dataflow パイプラインを簡単に拡張するためのテンプレートについても確認します。これらの内容を習得することで、データ プラットフォームの安定性を保ち、予期せぬ状況に対する回復力を確保できるようになります。
Dataflow コースシリーズの 2 回目である今回は、Beam SDK を使用したパイプラインの開発について詳しく説明します。まず、Apache Beam のコンセプトについて復習します。次に、ウィンドウ、ウォーターマーク、トリガーを使用したストリーミング データの処理について説明します。さらに、パイプラインのソースとシンクのオプション、構造化データを表現するためのスキーマ、State API と Timer API を使用してステートフル変換を行う方法について説明します。続いて、パイプラインのパフォーマンスを最大化するためのベスト プラクティスを再確認します。コースの終盤では、Beam でビジネス ロジックを表現するための SQL と DataFrame、および Beam ノートブックを使用してパイプラインを反復的に開発する方法を説明します。
このコースは、Dataflow を使用したサーバーレスのデータ処理に関する 3 コースシリーズのパート 1 です。この最初のコースでは、始めに Apache Beam とは何か、そして Dataflow とどのように関係しているかを復習します。次に、Apache Beam のビジョンと Beam Portability フレームワークの利点について説明します。Beam Portability フレームワークによって、デベロッパーが好みのプログラミング言語と実行バックエンドを使用できるビジョンが実現します。続いて、Dataflow によってどのように費用を節約しながらコンピューティングとストレージを分離できるか、そして識別ツール、アクセスツール、管理ツールがどのように Dataflow パイプラインと相互に機能するかを紹介します。最後に、Dataflow でそれぞれのユースケースに合った適切なセキュリティ モデルを実装する方法について学習します。
ストリーミングによって企業が事業運営に関するリアルタイムの指標を取得できるようになり、ストリーミング データの処理を行う機会が増えてきました。このコースでは、Google Cloud でストリーミング データ パイプラインを構築する方法について学習します。受信ストリーミング データの処理のために Pub/Sub について説明します。また、このコースでは、Dataflow を使用してストリーミング データの集計や変換を行う方法、処理済みのレコードを分析用に BigQuery や Bigtable に保存する方法についても説明します。さらに、Qwiklabs を使用して Google Cloud でストリーミング データ パイプラインのコンポーネントを構築する実践演習を行います。
ML をデータ パイプラインに組み込むと、データから分析情報を抽出する能力を向上できます。このコースでは、Google Cloud でデータ パイプラインに ML を含める複数の方法について説明します。カスタマイズがほとんど、またはまったく必要ない場合のために、このコースでは AutoML について説明します。よりカスタマイズされた ML 機能については、Notebooks と BigQuery の機械学習(BigQuery ML)を紹介します。また、Vertex AI を使用して ML ソリューションを本番環境に導入する方法も説明します。
すべてのデータ パイプラインには、データレイクとデータ ウェアハウスという 2 つの主要コンポーネントがあります。このコースでは、各ストレージ タイプのユースケースを紹介し、Google Cloud で利用可能なデータレイクとデータ ウェアハウスのソリューションを技術的に詳しく説明します。また、データ エンジニアの役割や、効果的なデータ パイプラインが事業運営にもたらすメリットについて確認し、クラウド環境でデータ エンジニアリングを行うべき理由を説明します。 これは「Data Engineering on Google Cloud」シリーズの最初のコースです。このコースを修了したら、「Google Cloud でのバッチデータ パイプラインの構築」コースに登録してください。
このコースでは、Professional Data Engineer(PDE)認定資格試験に向けた学習計画を作成できます。学習者は、試験の範囲を把握できます。また、試験への準備状況を把握して、個々の学習計画を作成します。
通常、データ パイプラインは、「抽出、読み込み(EL)」、「抽出、読み込み、変換(ELT)」、「抽出、変換、読み込み(ETL)」のいずれかの考え方に分類できます。このコースでは、バッチデータではどの枠組みを、どのような場合に使用するのかについて説明します。本コースではさらに、BigQuery、Dataproc 上での Spark の実行、Cloud Data Fusion のパイプラインのグラフ、Dataflow でのサーバーレスのデータ処理など、データ変換用の複数の Google Cloud テクノロジーについて説明します。また、Qwiklabs を使用して Google Cloud でデータ パイプラインのコンポーネントを構築する実践演習を行います。
アプリケーション デベロッパーは、このコースを通して、Google Cloud のマネージド サービスをシームレスに統合するクラウドネイティブ アプリケーションの設計方法と開発方法を学びます。講義、デモ、ハンズオンラボを通して、アプリケーション開発のベスト プラクティスを適用する方法、さらに、オブジェクト ストレージやリレーショナル データ、キャッシュ保存、分析に適切な Google Cloud ストレージ サービスを使用する方法を学習します。 各ラボのいずれかのバージョンを修了する必要があります。各ラボは Node.js で提供されます。ほとんどの場合、同じラボが Python または Java でも提供されます。各ラボをご希望の言語で修了できます。 これは「Developing Applications with Google Cloud」シリーズの最初のコースです。このコースを修了したら、「Securing and Integrating Components of your Application」コースに登録してください。
Google Cloud の基礎: コア インストラクチャ では、Google Cloud に関する重要なコンセプトと用語について説明します。このコースでは動画とハンズオンラボを通じて学習を進めていきます。Google Cloud の多数のコンピューティング サービスとストレージ サービス、そしてリソースとポリシーを管理するための重要なツールについて比較しながら説明します。
「BigQuery でデータ ウェアハウスを構築する」スキルバッジを獲得できる中級コースを修了すると、 データの結合による新しいテーブルの作成、結合のトラブルシューティング、UNION を使用したデータの連結、日付パーティション分割テーブルの作成、 BigQuery での JSON、配列、構造体の操作に関するスキルを証明できます。 スキルバッジは、Google Cloud の プロダクトとサービスに関する習熟度を示す Google Cloud 発行の限定デジタルバッジです。 これは、インタラクティブなハンズオン環境での知識の応用力を 証明するものです。このスキルバッジ コースと最終評価チャレンジラボを修了し、 デジタルバッジを獲得してネットワークで共有しましょう。
データ ウェアハウスの構築または最適化を検討している場合は、BigQuery を使ったデータの抽出、変換、Google Cloud への読み込みに関するおすすめの方法を学びます。この一連のインタラクティブなラボでは、各種の大規模な BigQuery 一般公開データセットを使って独自のデータ ウェアハウスを作成、最適化します。BigQuery は、Google が低料金で提供する NoOps のフルマネージド分析データベースです。インフラストラクチャを所有して管理したり、データベース管理者を配置したりすることなく、テラバイト単位の大規模なデータでクエリを実行できます。また、SQL が採用されており、従量課金制モデルでご利用いただけます。このような特徴を活かし、お客様は有用な情報を得るためのデータ分析に専念できます。