로드 중...
검색 결과가 없습니다.

Google Cloud 콘솔에서 기술 적용

Building Batch Data Pipelines on Google Cloud - 한국어

700개 이상의 실습 및 과정 이용하기

Beam(Python) 2.5의 맵리듀스

실습 1시간 30분 universal_currency_alt 크레딧 5개 show_chart 고급
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
700개 이상의 실습 및 과정 이용하기

개요

이 실습에서는 Map 및 Reduce 작업을 식별하고, 파이프라인을 실행하고, 명령줄 매개변수를 사용해 봅니다.

목표

  • Map 및 Reduce 작업 식별
  • 파이프라인 실행
  • 명령줄 매개변수 사용

설정

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

  1. 시크릿 창을 사용하여 Qwiklabs에 로그인합니다.

  2. 실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
    일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.

  3. 준비가 되면 실습 시작을 클릭합니다.

  4. 실습 사용자 인증 정보(사용자 이름비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.

  5. Google Console 열기를 클릭합니다.

  6. 다른 계정 사용을 클릭한 다음, 안내 메시지에 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
    다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.

  7. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

  1. Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 선택합니다.

  2. 기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요 > 대시보드에서 확인할 수 있습니다.

참고: 계정이 IAM에 없거나 editor 역할이 없는 경우 다음 단계에 따라 필요한 역할을 할당합니다.
  1. Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요 > 대시보드를 클릭합니다.
  2. 프로젝트 번호(예: 729328892908)를 복사합니다.
  3. 탐색 메뉴에서 IAM 및 관리자 > IAM을 선택합니다.
  4. 역할 테이블 상단에서 주 구성원별로 보기 아래에 있는 액세스 권한 부여를 클릭합니다.
  5. 새 주 구성원 필드에 다음을 입력합니다.
{project-number}-compute@developer.gserviceaccount.com
  1. {project-number}는 프로젝트 번호로 바꿉니다.
  2. 역할 필드에서 프로젝트(또는 기본) > 편집자를 선택합니다.
  3. 저장을 클릭합니다.

작업 1. 실습 준비

이 실습을 성공적으로 실행하려면 특정 단계를 반드시 완료해야 합니다.

SSH 터미널을 열고 학습용 VM에 연결하기

선별된 학습용 VM에서 모든 코드를 실행합니다.

  1. 콘솔의 탐색 메뉴()에서 Compute Engine > VM 인스턴스를 클릭합니다.

  2. training-vm 인스턴스가 있는 줄을 찾습니다.

  3. 맨 오른쪽에 있는 연결에서 SSH를 클릭하여 터미널 창을 엽니다.

  4. 이 실습에서는 training-vm에 CLI 명령어를 입력합니다.

학습 github 저장소 클론하기

  • training-vm SSH 터미널에서 다음 명령어를 입력합니다.
git clone https://github.com/GoogleCloudPlatform/training-data-analyst

작업 2. Map 및 Reduce 작업 식별

  • training-vm SSH 터미널로 돌아가서 /training-data-analyst/courses/data_analysis/lab2/python 디렉터리로 이동한 다음, Nano를 사용하여 is_popular.py 파일을 확인합니다. 코드를 변경하지 마세요. Ctrl+X를 눌러 Nano를 종료합니다.
cd ~/training-data-analyst/courses/data_analysis/lab2/python nano is_popular.py

is_popular.py 파일에 대한 다음 질문에 답변하세요.

  • 어떤 커스텀 인수가 정의되나요?
  • 기본 출력 접두사는 무엇인가요?
  • main()에서 output_prefix 변수는 어떻게 설정되나요?
  • --runner와 같은 파이프라인 인수는 어떻게 설정되나요?
  • 파이프라인의 핵심 단계는 무엇인가요?
  • 어떤 단계가 동시에 진행되나요?
  • 이 중에 집계 단계는 무엇인가요?

작업 3. 파이프라인 실행

  1. training-vm SSH 터미널에서 파이프라인을 로컬로 실행합니다.
python3 ./is_popular.py
  1. 출력 파일을 식별합니다. output<suffix>이어야 하며 샤딩된 파일일 수 있습니다.
ls -al /tmp
  1. 출력 파일을 검토하고 '-*'를 적절한 접미사로 바꿉니다.
cat /tmp/output-*

작업 4. 명령줄 매개변수 사용

  1. training-vm SSH 터미널에서 기본값의 출력 접두사를 변경합니다.
python3 ./is_popular.py --output_prefix=/tmp/myoutput
  1. 작성되는 새 파일의 이름은 무엇인가요?
  2. 이제 /tmp 디렉터리에 새 파일이 있습니다.
ls -lrt /tmp/myoutput*

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

  • 별표 1개 = 매우 불만족
  • 별표 2개 = 불만족
  • 별표 3개 = 중간
  • 별표 4개 = 만족
  • 별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

Copyright 2020 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

이전 다음

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하려면 시크릿 모드 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.
미리보기