Shivprasad Dahiphale
회원 가입일: 2024
골드 리그
12020포인트
회원 가입일: 2024
머신러닝을 데이터 파이프라인에 통합하면 데이터에서 더 많은 인사이트를 도출할 수 있습니다. 이 과정에서는 머신러닝을 Google Cloud의 데이터 파이프라인에 포함하는 방법을 알아봅니다. 맞춤설정이 거의 또는 전혀 필요 없는 경우에 적합한 AutoML에 대해 알아보고 맞춤형 머신러닝 기능이 필요한 경우를 위해 Notebooks 및 BigQuery 머신러닝(BigQuery ML)도 소개합니다. Vertex AI를 사용해 머신러닝 솔루션을 프로덕션화하는 방법도 다루어 보겠습니다.
스트리밍을 통해 비즈니스 운영에 대한 실시간 측정항목을 얻을 수 있게 되면서 스트리밍 데이터 처리의 사용이 늘고 있습니다. 이 과정에서는 Google Cloud에서 스트리밍 데이터 파이프라인을 빌드하는 방법을 다룹니다. 수신되는 스트리밍 데이터 처리와 관련해 Pub/Sub를 설명합니다. 이 과정에서는 Dataflow를 사용해 집계 및 변환을 스트리밍 데이터에 적용하는 방법과 처리된 레코드를 분석을 위해 BigQuery 또는 Bigtable에 저장하는 방법에 대해서도 다룹니다. Google Cloud에서 Qwiklabs를 사용해 스트리밍 데이터 파이프라인 구성요소를 빌드하는 실습을 진행해 볼 수도 있습니다.
데이터 파이프라인은 일반적으로 추출-로드(EL), 추출-로드-변환(ELT) 또는 추출-변환-로드(ETL) 패러다임 중 하나에 속합니다. 이 과정에서는 일괄 데이터에 사용해야 할 패러다임과 사용 시기에 대해 설명합니다. 또한 BigQuery, Dataproc에서의 Spark 실행, Cloud Data Fusion의 파이프라인 그래프, Dataflow를 사용한 서버리스 데이터 처리 등 데이터 변환을 위한 Google Cloud의 여러 가지 기술을 다룹니다. Google Cloud에서 Qwiklabs를 사용해 데이터 파이프라인 구성요소를 빌드하는 실무형 실습도 진행합니다.
데이터 파이프라인의 두 가지 주요 구성요소는 데이터 레이크와 웨어하우스입니다. 이 과정에서는 스토리지 유형별 사용 사례를 살펴보고 Google Cloud에서 사용 가능한 데이터 레이크 및 웨어하우스 솔루션을 기술적으로 자세히 설명합니다. 또한 데이터 엔지니어의 역할, 성공적인 데이터 파이프라인이 비즈니스 운영에 가져오는 이점, 클라우드 환경에서 데이터 엔지니어링을 수행해야 하는 이유도 알아봅니다. 'Google Cloud의 데이터 엔지니어링' 시리즈의 첫 번째 과정입니다. 이 과정을 완료한 후 'Google Cloud에서 일괄 데이터 파이프라인 빌드하기' 과정에 등록하세요.
이 과정에서는 Google Cloud의 데이터 엔지니어링, 데이터 엔지니어의 역할과 책임, 그리고 이러한 요소가 Google Cloud 제공 서비스와 어떻게 연결되는지에 대해 알아봅니다. 또한 데이터 엔지니어링 과제를 해결하는 방법에 대해서도 배우게 됩니다.