로드 중...
검색 결과가 없습니다.

Google Cloud 콘솔에서 기술 적용

Modernizing Retail and Ecommerce Solutions with Google Cloud

700개 이상의 실습 및 과정 이용하기

Cloud Dataprep v1.5로 전자상거래 분석 파이프라인 탐색 및 생성

실습 1시간 30분 universal_currency_alt 크레딧 5개 show_chart 입문
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
700개 이상의 실습 및 과정 이용하기

개요

Cloud Dataprep by Trifacta는 구조화 및 비구조화 데이터를 시각적으로 탐색하고 정리하여 분석을 준비하는 지능형 데이터 서비스입니다. 이 실습에서는 Cloud Dataprep UI를 탐색하여 예약된 간격으로 실행되고 결과를 BigQuery로 다시 출력하는 전자상거래 변환 파이프라인을 빌드합니다.

여기서 사용할 데이터 세트는 BigQuery에 로드된 Google Merchandise Store를 위한 Google 애널리틱스 레코드 수백만 개가 포함된 전자상거래 데이터 세트입니다. 이 실습에서는 해당 데이터 세트의 복사본에서 사용 가능한 필드와 행을 탐색하여 유용한 정보를 파악합니다.

목표

이 실습에서는 다음 작업을 수행하는 방법을 알아봅니다.

  • BigQuery 데이터 세트를 Cloud Dataprep에 연결
  • Cloud Dataprep으로 데이터 세트 품질 살펴보기
  • Cloud Dataprep으로 데이터 변환 파이프라인 만들기
  • BigQuery로 변환 작업 출력 예약

필요한 사항

  • Google Cloud Platform 프로젝트
  • Chrome 브라우저, Cloud Dataprep은 Chrome 브라우저만 지원

설정 및 요건

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

  1. 시크릿 창을 사용하여 Qwiklabs에 로그인합니다.

  2. 실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
    일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.

  3. 준비가 되면 실습 시작을 클릭합니다.

  4. 실습 사용자 인증 정보(사용자 이름비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.

  5. Google Console 열기를 클릭합니다.

  6. 다른 계정 사용을 클릭한 다음, 안내 메시지에 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
    다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.

  7. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

  1. Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 선택합니다.

  2. 기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요 > 대시보드에서 확인할 수 있습니다.

참고: 계정이 IAM에 없거나 editor 역할이 없는 경우 다음 단계에 따라 필요한 역할을 할당합니다.
  1. Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요 > 대시보드를 클릭합니다.
  2. 프로젝트 번호(예: 729328892908)를 복사합니다.
  3. 탐색 메뉴에서 IAM 및 관리자 > IAM을 선택합니다.
  4. 역할 테이블 상단에서 주 구성원별로 보기 아래에 있는 액세스 권한 부여를 클릭합니다.
  5. 새 주 구성원 필드에 다음을 입력합니다.
{project-number}-compute@developer.gserviceaccount.com
  1. {project-number}는 프로젝트 번호로 바꿉니다.
  2. 역할 필드에서 프로젝트(또는 기본) > 편집자를 선택합니다.
  3. 저장을 클릭합니다.

BigQuery 콘솔 열기

  1. Google Cloud Console에서 탐색 메뉴 > BigQuery를 선택합니다.

Cloud Console의 BigQuery에 오신 것을 환영합니다라는 메시지 상자가 열립니다. 이 메시지 상자에서는 빠른 시작 가이드 링크 및 UI 업데이트 목록을 확인할 수 있습니다.

  1. 완료를 클릭합니다.

이 실습에서는 Cloud Dataprep을 중점적으로 다루고 있지만, 파이프라인 데이터 세트 수집의 엔드포인트이자 완성된 파이프라인의 출력 대상으로 BigQuery가 필요합니다.

작업 1. 빈 BigQuery 데이터 세트 만들기

이 작업에서는 새 파이프라인의 출력 테이블을 수신할 새 BigQuery 데이터 세트를 만듭니다.

  1. 왼쪽 창에서 프로젝트 ID 옆의 작업 보기()를 클릭하고 데이터 세트 만들기를 선택합니다.

  2. 데이터 세트 만들기 대화상자에서 다음을 실행합니다.

  • 데이터 세트 ID전자상거래를 입력합니다.
  • 다른 값은 기본값을 유지합니다.
  1. 데이터 세트 만들기를 클릭합니다.

  2. 이 SQL 쿼리를 복사하여 쿼리 편집기 텍스트 필드에 붙여넣습니다.

#standardSQL CREATE OR REPLACE TABLE ecommerce.all_sessions_raw_dataprep OPTIONS( description="Raw data from analyst team to ingest into Cloud Dataprep" ) AS SELECT * FROM `data-to-insights.ecommerce.all_sessions_raw` WHERE date = '20170801'; # limiting to one day of data 56k rows for this lab
  1. 실행을 클릭합니다.

이 쿼리는 Cloud Dataprep에서 탐색하고 정리할 수 있도록 공개 원시 전자상거래 데이터 세트의 하위 집합을 자체 프로젝트 데이터 세트로 복사합니다.

  1. 프로젝트에 새 원시 데이터 테이블이 있는지 확인합니다.

작업 2. Cloud Dataprep 열기

이 작업에서는 Google 및 Trifacta의 서비스 약관에 동의한 다음 Trifacta가 프로젝트 데이터에 액세스하도록 허용합니다.

  1. Cloud Shell에서 다음 명령어를 실행하여 Dataprep에 정상적으로 액세스하는 데 필요한 서비스 계정을 만듭니다.
gcloud beta services identity create --service=dataprep.googleapis.com
  1. GCP Console에서 실습 프로젝트가 선택되어 있는지 확인합니다.

  2. 탐색 메뉴()의 애널리틱스 그룹화에서 Dataprep을 클릭합니다.

  3. Google 및 Trifacta의 서비스 약관을 선택한 다음 동의를 클릭합니다.

  4. Trifacta와 계정 정보 공유하기 대화상자에서 체크박스를 선택한 다음 동의 및 계속하기를 클릭합니다.

  5. 허용을 클릭하여 Trifacta가 프로젝트 데이터에 액세스하도록 허용합니다. 이 승인 과정은 몇 분 정도 걸릴 수 있습니다.

  6. Google 계정으로 로그인 창이 나타나면 Qwiklab 계정을 선택한 다음 허용을 클릭합니다. 체크박스를 선택한 후 필요하면 동의를 클릭합니다.

  7. 스토리지 버킷의 기본 위치를 사용하려면 계속을 클릭합니다.

Cloud Dataprep 홈페이지가 열립니다. 필요한 경우 을 클릭합니다.

작업 3. BigQuery 데이터를 Cloud Dataprep으로 연결

이 작업에서는 Cloud Dataprep을 BigQuery 데이터 소스에 연결합니다.

Cloud Dataprep 페이지에서 다음을 수행합니다.

  1. 새 흐름 만들기를 클릭합니다.

  2. 페이지 상단에서 제목 없음 흐름을 클릭합니다.

  3. 이름 바꾸기 대화상자에서 다음 세부정보를 지정합니다.

    • 흐름 이름전자상거래 분석 파이프라인을 입력합니다.
    • 흐름 설명의류용 수익 보고서 테이블을 입력합니다.
  4. 확인을 클릭합니다.

  5. (+) 아이콘을 클릭하여 데이터 세트를 추가합니다.

  6. 흐름에 데이터 세트 추가 대화상자의 왼쪽 하단에서 데이터 세트 가져오기를 클릭합니다.

  7. 왼쪽 창에서 BigQuery를 클릭합니다.

  8. 전자상거래 데이터 세트가 로드되면 클릭합니다.

  9. 데이터 세트를 만들려면 데이터 세트 만들기()를 클릭합니다.

  10. 가져오기 및 흐름에 추가를 클릭합니다.

데이터 소스가 자동으로 업데이트됩니다.

작업 4. UI로 전자상거래 데이터 필드 탐색

이 작업에서는 Cloud Dataprep 내에서 데이터 세트 샘플을 로드하고 탐색합니다.

  1. 오른쪽 패널에서 레시피 편집을 클릭합니다.

  2. 필요한 경우 Transformer 대화상자에서 도우미 표시 안 함을 클릭합니다.

Cloud Dataprep은 데이터 세트 샘플을 Transformer 보기로 로드합니다. 이 과정은 몇 분 정도 걸릴 수 있습니다.

질문에 답하세요.

  • Cloud Dataprep은 탐색 분석 속도를 위해 소스 데이터 세트의 샘플을 로드합니다.
참고: 파이프라인이 실행되면 전체 소스 데이터 세트에 대해 작동합니다. 샘플에는 행이 몇 개 포함되어 있나요?

정답: 약 12,000개의 행

  • channelGrouping 열에서 가장 일반적인 값은 무엇인가요?

정답: 추천 값

  • 세션이 가장 많이 시작되는 상위 3개국은 어디인가요?

정답: 미국, 인도, 영국

  • totalTransactionRevenue 아래의 회색 막대는 무엇을 나타내나요?

    정답: 누락된 값

  • 데이터 샘플의 평균 timeOnSite(초), 평균 pageviews, 평균 sessionQualityDim은 얼마인가요? (힌트: 열 세부정보를 사용하세요.)

    정답: 평균 사이트에 머문 시간: 942초(또는 15.7분)

    평균 페이지뷰: 20.44페이지

    평균 세션 품질 측정기준: 38.36

참고: Cloud Dataprep에서 사용하는 데이터 샘플로 인해 답변이 약간 다를 수 있습니다.
  • sessionQualityDim의 히스토그램을 보면 데이터 값이 고르게 분포되어 있나요?

정답: 아니요, 예상보다 낮은 값(낮은 품질 세션)으로 치우쳐 있습니다.

  • 데이터 세트 샘플의 기간은 언제인가요?

정답: 2017년 8월 1일(데이터의 1일 차)

  • productSKU 열에 빨간색 막대가 있는 이유는 무엇인가요?

정답: 빨간색 막대는 일치하지 않는 값을 나타냅니다. Cloud Dataprep은 productSKU 열 유형을 정수로 자동 식별했습니다. 또한 Cloud Dataprep은 정수가 아닌 일부 값을 감지하여 일치하지 않는 것으로 플래그를 지정했습니다. 실제로 productSKU가 항상 정수인 것은 아닙니다(예: 올바른 값이 'GGOEGOCD078399'일 수 있음). 따라서 이 경우 Cloud Dataprep이 열 유형을 잘못 식별했으며 정수가 아니라 문자열이어야 합니다. 다음 단계에서 수정합니다.

참고: productSKU 열에 이미 String 유형이 있으면 빨간색 막대가 표시되지 않습니다.
  • productSKU 열 유형을 문자열 데이터 유형으로 변환하려면 을 클릭하여 productSKU 열의 오른쪽에 있는 메뉴를 연 다음 유형 변경 > 문자열을 클릭합니다.

  • v2ProductName에서 가장 인기 있는 제품은 무엇인가요?

정답: Nest 제품

  • v2ProductCategory에서 가장 인기 있는 제품은 무엇인가요? 샘플링된 카테고리가 몇 개인가요?

정답: Nest(설정되지 않음), 약 25개 카테고리 중 가장 인기 있는 카테고리는 의류입니다.

  • 참 또는 거짓: 가장 일반적인 productVariant는 COLOR입니다.

정답: 거짓. 대부분의 제품(80% 이상)에 변형이 없기 때문에 (설정되지 않음)입니다.

  • 두 가지 유형의 카테고리는 무엇인가요?

정답: PAGE와 EVENT

  • 평균 productQuantity는 얼마인가요?

정답: 3.45(답변은 다양할 수 있음)

  • 데이터 세트에 있는 고유 SKU는 몇 개인가요?

정답: 600개 이상

  • 행 수별로 가장 인기 있는 제품 이름은 무엇인가요? 가장 인기 있는 카테고리는 무엇인가요?

정답:

Cam Outdoor Security Camera - USA

Cam Indoor Security Camera - USA

Learning Thermostat 3rd Gen-USA - Stainless Steel

  • 거래를 위한 주요 통화 코드는 무엇인가요?

정답: USD(미국 달러)

  • itemQuantity 또는 itemRevenue에 유효한 값이 있나요?

정답: 아니요, 모두 NULL 값입니다.

  • 유효한 값이 있는 거래 ID의 비율은 얼마인가요? 이 비율이 전자상거래 데이터 세트에서 나타내는 바는 무엇인가요?

정답: 약 4.6%의 거래 ID가 웹사이트의 평균 전환율을 나타내는 유효한 값을 가지고 있습니다(방문자의 4.6%가 거래).

  • eCommerceAction_type은 몇 개이며 가장 인기 있는 eCommerceAction_step은 무엇인가요?

정답:

샘플에는 6가지 유형의 데이터가 있습니다.

0 또는 NULL이 가장 인기 있습니다.

작업 5. 데이터 정리

이 작업에서는 사용하지 않는 열을 삭제하고, 중복을 제거하고, 계산된 필드를 만들고, 행을 필터링하여 데이터를 정리합니다. 스키마에서 필드의 가치가 떨어지거나 모든 값이 NULL인 경우에 일반적으로 열이 삭제됩니다.

사용되지 않는 열 삭제

  • 원하지 않는 열을 선택한 다음 삭제를 클릭합니다. 모든 NULL 값이 있는 다음 열에 대해 이 작업을 수행합니다.

  • itemRevenue

  • itemQuantity

열 중복 삭제

팀에서 소스 데이터 세트에 중복 세션 값이 포함되었을 수 있다고 알렸습니다. 새로운 중복 삭제 단계를 통해 이 값을 삭제해 보겠습니다.

  1. 오른쪽 상단의 레시피()를 클릭하고 새 단계를 선택합니다.

  2. 변환 검색창에 중복 삭제를 입력하고 중복 행 삭제를 선택합니다.

  3. 추가를 클릭합니다.

  4. 지금까지 만든 레시피를 검토합니다.

수익이 없는 세션 필터링

웹사이트에서 하나 이상의 항목을 구매한 모든 사용자 세션의 테이블을 생성하도록 팀에서 요청했습니다. 수익이 NULL인 사용자 세션을 필터링합니다.

  1. totalTransactionRevenue 열에서 누락된 값 막대를 클릭합니다.

  2. 제안 패널에서 누락된 값이 있는 행 삭제를 클릭한 다음 추가를 클릭합니다(그림 참조).

이 단계에서는 수익이 있는 거래만 포함하도록 데이터 세트를 필터링합니다(여기서 totalTransactionRevenue는 NULL임).

유형 = ‘PAGE’에 대한 세션 필터링

데이터 세트에는 웹사이트 페이지 보기와 '조회된 제품 카테고리' 또는 '장바구니에 추가'와 같은 트리거된 이벤트가 모두 포함되어 있습니다. 세션 페이지 조회수가 이중으로 계산되지 않도록 하려면 페이지 조회수 관련 이벤트만 포함하도록 필터를 추가하세요.

  1. 유형 열에서 PAGE의 막대를 클릭합니다.

  2. 제안 패널에서 유형이 PAGE인 행 유지를 클릭한 다음 추가를 클릭합니다.

의류 제품으로 필터링

이제 팀에서 출력을 추가로 필터링하여 의류 카테고리의 거래만 포함하도록 요청했습니다(의류에는 티셔츠 및 기타 의류 항목과 같은 항목이 포함됨).

  1. v2ProductCategory 열 옆에 있는 드롭다운 아이콘을 클릭합니다.

  2. 열 필터링 > 열 값 기준을 선택합니다.

  3. 포함을 선택합니다.

  4. 일치시킬 패턴에 'Apparel'(대소문자 구분)을 입력하고 추가를 클릭합니다.

참고: 카탈로그의 제품은 2개 이상의 카테고리('Apparel' 및 'Home/Apparel/')에 속할 수 있으므로 카테고리 이름에 Apparel이 있는 모든 행을 일치시킵니다.

작업 6. 데이터 보강

이 실습에서 사용된 스키마에 대해 알아보려면 [UA] BigQuery Export 스키마를 참조하세요. 이 문서에서 visitId를 검색하고 설명을 읽은 후 모든 사용자 세션에 고유한지 아니면 해당 사용자에게만 고유한지 확인합니다.

VisitId = 이 세션의 식별자입니다. 일반적으로 _utmb 쿠키로 저장된 값의 일부이며, 사용자마다 고유한 값을 가집니다. 완전히 고유 ID인 경우 fullVisitorId와 visitId의 조합을 사용해야 합니다.

visitId는 모든 사용자에서 고유하지는 않습니다.

이 작업에서는 연결된 새 열을 추가하여 고유한 세션 ID 필드를 만듭니다. 그런 다음 CASE 문으로 전자상거래 라벨 데이터를 보강합니다.

고유한 세션 ID에 대한 새 열 만들기

확인한 것처럼 데이터 세트에는 고유 방문자 세션에 대한 단일 열이 없습니다. fullVisitorIDvisitId 필드를 연결하여 각 세션에 대한 고유 ID를 만듭니다.

  1. 새 단계를 클릭합니다.

  2. 검색 변환concat를 입력한 다음 열 병합을 선택합니다.

  3. 에 대해 fullVisitorIdvisitId를 선택합니다.

  4. 새 열 이름unique_session_id를 입력하고 다른 입력은 기본값으로 두고 추가를 클릭합니다.

전자상거래 작업 유형에 대한 케이스 문 만들기

eCommerceAction_type 필드는 3 = 'Add to Cart' 또는 5 = 'Check out'과 같이 해당 세션에서 수행된 실제 전자상거래 작업에 매핑되는 정수입니다. 정수 값에 매핑되는 계산된 열을 만듭니다.

  1. 새 단계를 클릭합니다.

  2. 변환 패널에 케이스를 입력한 다음 조건부 열을 선택합니다.

  3. 드롭다운에서 단일 열의 케이스를 선택합니다.

  4. 평가할 열eCommerceAction_type을 지정합니다.

  5. 케이스(X) 옆에 있는 추가를 8번 클릭하여 총 9개의 케이스를 생성합니다.

  6. 각 케이스에 대해 다음 매핑 값(따옴표 포함)을 지정합니다.

비교할 값 새 값
1 'Click through of product lists'
2 'Product detail views'
3 'Add product(s) to cart'
4 'Remove product(s) from cart'
5 'Check out'
6 'Completed purchase'
7 'Refund of purchase'
8 'Checkout options'
0 'Unknown'

다른 필드는 기본값 그대로 둡니다.

  1. 새 열 이름eCommerceAction_label을 입력한 다음 추가를 클릭합니다.

  2. 레시피를 검토하고 다음 예와 비교하세요.

작업 7. Cloud Dataprep 작업을 실행하여 BigQuery 로드

흐름에 만족하면 소스 데이터 세트에 대해 변환 레시피를 실행할 차례입니다. 이를 위해 Cloud Dataprep 작업(Cloud Dataflow 작업을 시작 및 실행함)을 실행하고 모니터링합니다.

  1. Transformer 페이지에서 오른쪽 상단에 있는 실행을 클릭합니다.

  2. 게시 작업 섹션에서 Create-CSV 위로 마우스를 가져간 다음 수정을 클릭합니다.

  3. 왼쪽 패널에서 BigQuery를 선택하고 전자상거래 데이터 세트로 이동한 다음 새 테이블 만들기를 클릭합니다.

  4. 출력 테이블의 이름을 apparel_revenue로 지정하고 오른쪽 패널에서 실행마다 테이블 삭제를 선택합니다.

  5. 업데이트를 클릭합니다.

  6. 실행을 클릭합니다.

  7. 왼쪽 패널에서 작업 기록을 클릭하여 Cloud Dataprep 작업을 모니터링합니다.

  8. 작업이 실행될 때까지 1~2분 기다립니다.

Cloud Dataprep 작업이 완료되면 BigQuery 페이지를 새로고침하고 출력 테이블 apparel_revenue가 있는지 확인합니다.

apparel_revenue > 미리보기를 선택하고 의류 제품에 대한 수익 거래 데이터가 있는지 확인합니다.

수고하셨습니다

전자상거래 데이터 세트를 성공적으로 탐색하고 Cloud Dataprep을 사용하여 반복되는 데이터 변환 파이프라인을 만들었습니다.

이미 Google 애널리틱스 계정이 있고 BigQuery에서 자체 데이터 세트를 쿼리하고 싶으신가요? 이 BigQuery Export 설정 가이드를 따르세요.

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

  • 별표 1개 = 매우 불만족
  • 별표 2개 = 불만족
  • 별표 3개 = 중간
  • 별표 4개 = 만족
  • 별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

Copyright 2020 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

이전 다음

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하려면 시크릿 모드 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.
미리보기