Nguyen Long
メンバー加入日: 2022
ゴールドリーグ
7005 ポイント
メンバー加入日: 2022
多くの IT 組織では、アジリティを求める開発者と、安定性を重視する運用担当者の間で、インセンティブが調整されていません。サイト信頼性エンジニアリング(SRE)は、Google が開発と運用の間のインセンティブを調整し、ミッション クリティカルな本番環境サポートを行う方法です。SRE の文化的および技術的手法を導入することで、ビジネスと IT の連携を改善できます。このコースでは、Google の SRE の主な手法を紹介し、SRE の組織的な導入を成功させるうえで IT リーダーとビジネス リーダーが果たす重要な役割について説明します。
Dataflow コースシリーズの 2 回目である今回は、Beam SDK を使用したパイプラインの開発について詳しく説明します。まず、Apache Beam のコンセプトについて復習します。次に、ウィンドウ、ウォーターマーク、トリガーを使用したストリーミング データの処理について説明します。さらに、パイプラインのソースとシンクのオプション、構造化データを表現するためのスキーマ、State API と Timer API を使用してステートフル変換を行う方法について説明します。続いて、パイプラインのパフォーマンスを最大化するためのベスト プラクティスを再確認します。コースの終盤では、Beam でビジネス ロジックを表現するための SQL と DataFrame、および Beam ノートブックを使用してパイプラインを反復的に開発する方法を説明します。
このコースは、Dataflow を使用したサーバーレスのデータ処理に関する 3 コースシリーズのパート 1 です。この最初のコースでは、始めに Apache Beam とは何か、そして Dataflow とどのように関係しているかを復習します。次に、Apache Beam のビジョンと Beam Portability フレームワークの利点について説明します。Beam Portability フレームワークによって、デベロッパーが好みのプログラミング言語と実行バックエンドを使用できるビジョンが実現します。続いて、Dataflow によってどのように費用を節約しながらコンピューティングとストレージを分離できるか、そして識別ツール、アクセスツール、管理ツールがどのように Dataflow パイプラインと相互に機能するかを紹介します。最後に、Dataflow でそれぞれのユースケースに合った適切なセキュリティ モデルを実装する方法について学習します。
ML をデータ パイプラインに組み込むと、データから分析情報を抽出する能力を向上できます。このコースでは、Google Cloud でデータ パイプラインに ML を含める複数の方法について説明します。カスタマイズがほとんど、またはまったく必要ない場合のために、このコースでは AutoML について説明します。よりカスタマイズされた ML 機能については、Notebooks と BigQuery の機械学習(BigQuery ML)を紹介します。また、Vertex AI を使用して ML ソリューションを本番環境に導入する方法も説明します。
ストリーミングによって企業が事業運営に関するリアルタイムの指標を取得できるようになり、ストリーミング データの処理を行う機会が増えてきました。このコースでは、Google Cloud でストリーミング データ パイプラインを構築する方法について学習します。受信ストリーミング データの処理のために Pub/Sub について説明します。また、このコースでは、Dataflow を使用してストリーミング データの集計や変換を行う方法、処理済みのレコードを分析用に BigQuery や Bigtable に保存する方法についても説明します。さらに、Qwiklabs を使用して Google Cloud でストリーミング データ パイプラインのコンポーネントを構築する実践演習を行います。
通常、データ パイプラインは、「抽出、読み込み(EL)」、「抽出、読み込み、変換(ELT)」、「抽出、変換、読み込み(ETL)」のいずれかの考え方に分類できます。このコースでは、バッチデータではどの枠組みを、どのような場合に使用するのかについて説明します。本コースではさらに、BigQuery、Dataproc 上での Spark の実行、Cloud Data Fusion のパイプラインのグラフ、Dataflow でのサーバーレスのデータ処理など、データ変換用の複数の Google Cloud テクノロジーについて説明します。また、Qwiklabs を使用して Google Cloud でデータ パイプラインのコンポーネントを構築する実践演習を行います。
「Looker ダッシュボードとレポート用にデータを準備する」スキルバッジを獲得できる入門コースを修了すると、 データのフィルタ、並べ替え、ピボット、異なる Looker Explore から取得した結果の統合、 関数と演算子を使用してデータを分析し可視化するための Looker ダッシュボードとレポートの作成に関するスキルを実証できます。
このコースでは、ML について定義し、ビジネスで ML をどのように活用できるのかを学習します。機械学習を使用したデモをいくつか確認し、機械学習の主な用語(インスタンス、特徴、ラベルなど)について学習します。インタラクティブなラボでは、事前トレーニング済みの ML API の呼び出しを実行するほか、BigQuery ML で SQL のみを使用して独自の ML モデルを構築します。
このコースシリーズの 3 番目のコースは、「Achieving Advanced Insights with BigQuery」です。ここでは、高度な関数と、複雑なクエリを管理可能なステップに分割する方法を学びながら、SQL に関する知識を深めます。 BigQuery の内部アーキテクチャ(列ベースのシャーディング ストレージ)についてや、ARRAY と STRUCT を使用した、ネストされたフィールドと繰り返しフィールドなどの高度な SQL トピックについて説明します。最後に、クエリのパフォーマンスを最適化する方法と、承認済みビューを使用してデータを保護する方法について説明します。 このコースを修了したら、「Applying Machine Learning to Your Data with Google」コースに登録してください。
これは「Data to Insights」コースシリーズの 2 つ目のコースです。ここでは、新しい外部データセットを BigQuery に取り込み、Looker Studio で可視化する方法について説明します。また、複数テーブルの JOIN と UNION など、中級者向けの SQL のコンセプトについても説明します。JOIN や UNION を使用すると、複数のデータソースのデータを分析できます。 注: すでに SQL に関する知識をお持ちの方も、BigQuery に固有の要素(クエリ キャッシュやテーブル ワイルドカードの処理など)について学ぶことができます。 このコースを修了したら、「Achieving Advanced Insights with BigQuery」コースに登録してください。
このコースでは、データ アナリストが共通して直面する課題と、その課題を Google Cloud のビッグデータ ツールを使用して解決する方法を取り上げます。その過程で SQL を学習しながら、BigQuery と Dataprep を使用してデータセットを分析し、変換する方法について理解を深めます。 これは「From Data to Insights with Google Cloud」シリーズの最初のコースです。このコースを修了したら、「Creating New BigQuery Datasets and Visualizing Insights」コースを受講してください。
このコースを受講すると、スケーラブルでパフォーマンスの高い LookML(Looker モデリング言語)モデルを開発し、ビジネス ユーザーの疑問解決に役立つ標準化されたすぐに使えるデータを提供できるようになります。このコースの修了時には、組織の Looker インスタンスでデータをキュレートして管理するための LookML モデルの構築と維持が可能になります。
このコースでは、これまで主に SQL のデベロッパーやアナリストが行っていたようなデータの探索や分析を Looker で実施する方法について学びます。このコースを修了すると、Looker の最新の分析プラットフォームを活用して、組織の Looker インスタンスにおける関連性の高いコンテンツの検索と探索、データに関する問い合わせ、必要に応じた新しい指標の作成、データドリブンな意思決定を促進するためのビジュアリゼーションとダッシュボードの作成や共有を行えるようになります。
すべてのデータ パイプラインには、データレイクとデータ ウェアハウスという 2 つの主要コンポーネントがあります。このコースでは、各ストレージ タイプのユースケースを紹介し、Google Cloud で利用可能なデータレイクとデータ ウェアハウスのソリューションを技術的に詳しく説明します。また、データ エンジニアの役割や、効果的なデータ パイプラインが事業運営にもたらすメリットについて確認し、クラウド環境でデータ エンジニアリングを行うべき理由を説明します。 これは「Data Engineering on Google Cloud」シリーズの最初のコースです。このコースを修了したら、「Google Cloud でのバッチデータ パイプラインの構築」コースに登録してください。
このコースでは、データから AI へのライフサイクルをサポートする Google Cloud のビッグデータと ML のプロダクトやサービスを紹介します。また、Google Cloud で Vertex AI を使用してビッグデータ パイプラインと ML モデルを作成する際のプロセス、課題、メリットについて説明します。