arrow_back

사이트 안정성 엔지니어용 GKE 워크로드 문제 해결

가입 로그인

사이트 안정성 엔지니어용 GKE 워크로드 문제 해결

1시간 30분 크레딧 1개

GSP902

Google Cloud 사용자 주도형 실습

참고: 일반적으로 이 실습을 시작하는 데에는 1분도 걸리지 않습니다. 하지만 수요가 많은 기간에는 이 실습에 사용되는 리소스를 프로비저닝하는 데 최대 20분이 걸릴 수도 있습니다. 프로비저닝 시간은 실습 참여 시간에서 차감되지 않습니다.

개요

사이트 안정성 엔지니어(SRE)는 다양한 업무를 담당하는데 그중에서도 이슈 관리는 역할에서 중요한 부분을 차지합니다. 로깅, 모니터링, 즉시 사용 가능하며 풍부한 정보를 담은 대시보드 등 Google Cloud 운영 제품군의 통합 기능을 활용하는 방법을 배웁니다.

문제 해결 프로세스는 SRE가 이슈의 잠재적인 근본 원인에 대한 가설을 세우고 시스템에서 수집된 대량의 원격 분석 데이터를 필터링, 검색, 탐색하여 가설을 검증하거나 무효화하는 '반복적' 접근 방식입니다. 가설이 잘못된 경우 SRE가 다른 가설을 작성하고 근본 원인을 구분해 낼 때까지 또다시 반복을 수행합니다. Google 웹사이트에서 Google 사이트 안정성 엔지니어링(SRE)에 대해 자세히 알아보세요.

이 실습에서는 Google Cloud 운영 도구를 사용해 반복되는 이 여정을 효율적이면서도 효과적으로 진행하는 방법을 알아봅니다.

실습 내용

이 실습에서는 다음 작업을 수행하는 방법을 학습합니다.

  • Google Kubernetes Engine(GKE)의 리소스 페이지 탐색

  • GKE 대시보드를 활용해 운영 데이터를 빠르게 확인

  • 로그 기반 측정항목을 만들어 특정 문제를 포착

  • 서비스 수준 목표(SLO) 만들기

  • SRE 담당자에게 이슈를 알리는 알림 정의

설정 및 요건

실습 시작 버튼을 클릭하기 전에

다음 안내를 확인하세요. 실습에는 시간 제한이 있으며 일시중지할 수 없습니다. 실습 시작을 클릭하면 타이머가 시작됩니다. 이 타이머에는 Google Cloud 리소스를 사용할 수 있는 시간이 얼마나 남았는지 표시됩니다.

Qwiklabs 실습을 통해 시뮬레이션이나 데모 환경이 아닌 실제 클라우드 환경에서 직접 실습 활동을 진행할 수 있습니다. 실습 시간 동안 Google Cloud에 로그인하고 액세스하는 데 사용할 수 있는 새로운 임시 사용자 인증 정보가 제공됩니다.

필요한 사항

이 실습을 완료하려면 다음을 준비해야 합니다.

  • 표준 인터넷 브라우저(Chrome 브라우저 권장)
  • 실습을 끝까지 진행할 시간

참고: 이미 개인용 Google Cloud 계정이나 프로젝트가 있어도 이 실습에서는 사용하지 마세요.

참고: Chrome OS 기기를 사용하는 경우 시크릿 창을 열어 이 실습을 실행하세요.

실습을 시작하고 Google Cloud 콘솔에 로그인하는 방법

  1. 실습 시작 버튼을 클릭합니다. 실습 비용을 결제해야 하는 경우 결제 수단을 선택할 수 있는 팝업이 열립니다. 왼쪽에는 다음과 같은 항목이 포함된 실습 세부정보 패널이 있습니다.

    • Google 콘솔 열기 버튼
    • 남은 시간
    • 이 실습에 사용해야 하는 임시 사용자 인증 정보
    • 필요한 경우 실습 진행을 위한 기타 정보
  2. Google 콘솔 열기를 클릭합니다. 실습에서 리소스가 가동된 후 로그인 페이지가 표시된 다른 탭이 열립니다.

    팁: 두 개의 탭을 각각 별도의 창으로 나란히 정렬하세요.

    참고: 계정 선택 대화상자가 표시되면 다른 계정 사용을 클릭합니다.
  3. 필요한 경우 실습 세부정보 패널에서 사용자 이름을 복사하여 로그인 대화상자에 붙여넣습니다. 다음을 클릭합니다.

  4. 실습 세부정보 패널에서 비밀번호를 복사하여 시작 대화상자에 붙여넣습니다. 다음을 클릭합니다.

    중요: 왼쪽 패널에 표시된 사용자 인증 정보를 사용해야 합니다. Google Cloud Skills Boost 사용자 인증 정보를 사용하지 마세요. 참고: 이 실습에 자신의 Google Cloud 계정을 사용하면 추가 요금이 발생할 수 있습니다.
  5. 이후에 표시되는 페이지를 클릭하여 넘깁니다.

    • 이용약관에 동의합니다.
    • 임시 계정이므로 복구 옵션이나 2단계 인증을 추가하지 않습니다.
    • 무료 평가판을 신청하지 않습니다.

잠시 후 Cloud 콘솔이 이 탭에서 열립니다.

참고: 왼쪽 상단에 있는 탐색 메뉴를 클릭하면 Google Cloud 제품 및 서비스 목록이 있는 메뉴를 볼 수 있습니다. 탐색 메뉴 아이콘

Google Cloud Shell 활성화하기

Google Cloud Shell은 다양한 개발 도구가 탑재된 가상 머신으로, 5GB의 영구 홈 디렉토리를 제공하며 Google Cloud에서 실행됩니다. Google Cloud Shell을 사용하면 명령줄을 통해 GCP 리소스에 액세스할 수 있습니다.

  1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼을 클릭합니다.

    Cloud Shell 아이콘

  2. ( 계속) Continue을 클릭하십시오.

    cloudshell_continue

환경을 프로비저닝하고 연결하는 데 약간의 시간이 걸립니다. 연결되면 이미 인증되었으며 프로젝트는 PROJECT_ID 로 설정됩니다. 예를 들면 다음과 같습니다.

Cloud Shell 터미널

gcloud는 Google Cloud Platform의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 탭 자동 완성을 지원합니다.

다음 명령어로 사용 중인 계정 이름 목록을 표시할 수 있습니다.

gcloud auth list

출력:

Credentialed accounts:
- <myaccount>@<mydomain>.com (active)

출력 예:

Credentialed accounts:
- google1623327_student@qwiklabs.net

다음 명령어로 프로젝트 ID 목록을 표시할 수 있습니다.

gcloud config list project

출력:

[core]
project = <project_ID>

출력 예:

[core]
project = qwiklabs-gcp-44776a13dea667a6

시나리오

조직에서 다중 계층 마이크로서비스 애플리케이션을 배포했습니다. 이 웹 기반 전자상거래 애플리케이션의 이름은 'Hipster Shop'이며 해당 앱에서는 사용자가 빈티지 상품을 둘러보고 장바구니에 추가하고 구매할 수 있습니다. Hipster Shop을 구성하는 여러 마이크로서비스는 다양한 언어로 작성되어 있으며 gRPC 및 REST API를 통해 서로 통신합니다. 배포 아키텍처는 학습 용도에 맞게 최적화되어 있으며 스택에 Kubernetes, Istio, Cloud 운영, App Engine, gRPC, OpenTelemetry, 유사한 클라우드 기반 기술 등 현대적인 기술이 포함되어 있습니다.

최종 사용자가 제품을 보고 장바구니에 추가하는 데 문제가 발생한다는 신고가 사이트 안정성 엔지니어링(SRE)팀에 접수됩니다. SRE팀에서는 문제의 근본 원인을 판단하기 위해 배포된 여러 서비스를 살펴보고 향후 유사한 이슈가 발생하지 않도록 서비스 수준 목표(SLO)를 설정합니다. 자세한 내용은 블로그 게시물 SLO, SLI, SLA - CRE 주기 강의를 참조하세요.

작업 1. Google Kubernetes Engine(GKE) 리소스 페이지 탐색

실습 첫 번째 단계에서는 Google Kubernetes Engine(GKE) 리소스 페이지를 살펴본 후 다양한 측정항목 대시보드로 이동하여 최종 사용자가 신고한 문제를 자세히 조사합니다.

  1. Cloud 콘솔의 탐색 메뉴에서 Kubernetes Engine > 클러스터로 이동합니다.

  2. Kubernetes 클러스터인 cloud-ops-sandbox가 표시되는지 확인합니다. 각 클러스터 옆에 실행 중임을 나타내는 녹색 체크표시가 있는지 확인합니다.

  3. 이름 열에서 cloud-ops-sandbox 링크를 클릭하여 클러스터의 세부정보 탭으로 이동합니다.

  4. 노드 탭을 클릭하여 클러스터의 모든 노드를 표시합니다. 단일 노드 풀이 있는지 확인합니다.

  5. 노드 탭의 노드 풀 섹션에서 이름 열에 있는 테이블의 첫 번째 노드 링크를 클릭해 해당 노드의 세부정보를 확인합니다. 페이지 하단으로 스크롤하고 페이지 하단에 있는 테이블에서 첫 번째 노드 링크를 클릭합니다.

노드 탭

  1. 표시된 노드 세부정보 페이지에서 제공되는 노드 관련 측정항목을 확인합니다. 해당 측정항목은 리소스 요약 섹션에 나열되어 있으며 CPU와 메모리 사용량 등이 포함되어 있습니다. 이 실습에서는 프로비저닝 중에 부하가 생성되어 요약 섹션에 표시되는 그래프에서 측정항목 활동을 볼 수 있지만 명확한 급증 또는 '요청된' 한도 이상의 측정항목이 표시되지는 않습니다.

  2. 추가 조사를 진행하려면 개별 노드로 이동해 측정항목을 확인하는 대신 CPU 타일 오른쪽 상단에 있는 점 3개를 클릭하고 측정항목 탐색기에서 보기를 선택합니다.

측정항목 탐색기 페이지에 방금 살펴본 노드와 관련된 측정항목이 표시됩니다. 측정항목 탐색기필터 섹션에 3가지 필터가 구성되어 있습니다.

  1. 필터를 펼치고 삭제 아이콘을 클릭해 nodename 필터를 삭제합니다.

  2. 데이터 조회 방법 섹션에서 그룹화 기준node_name으로 설정합니다.

필터를 설정하면 시각화가 업데이트되고 cloud-ops-sandbox 클러스터의 노드 풀에 있는 모든 노드에 대해 동일한 측정항목을 볼 수 있습니다.

선 차트

참고: 코어 한도 및 코어 요청이라는 측정항목 2개가 추가로 표시될 것입니다. 코어 한도는 노드에서 실행되는 컨테이너의 CPU 코어 한도이고, 코어 요청 측정항목은 노드에서 실행 중인 컨테이너가 요청한 CPU 코어 수를 의미합니다. Kubernetes 측정항목에 대한 자세한 내용은 Kubernetes 측정항목 문서 페이지에서 확인할 수 있습니다.

작업 2. GKE 대시보드를 통한 운영 데이터 액세스

다음 섹션에서는 GKE 대시보드를 통해 GKE에 배포된 여러 리소스의 자세한 운영 데이터로 빠르게 이동하는 방법을 살펴봅니다.

앞서 웹사이트 사용자가 제품 세부정보를 보거나 장바구니에 상품을 추가할 수 없다고 신고했습니다. 웹사이트를 열어 신고 내용을 확인할 수 있습니다.

  1. 탐색 메뉴 > Kubernetes Engine > 서비스 및 인그레스로 이동합니다. frontend-external 서비스의 엔드포인트(IP 주소)를 클릭합니다.
  2. 방문 페이지에 표시되는 제품을 클릭해 신고된 오류를 재현합니다.

오류를 재현하면 스택 트레이스에 애플리케이션이 '제품 추천을 가져올 수 없습니다'라고 표시되는 것을 확인합니다.

GKE에 배포된 recommendationservice를 조사합니다.

  1. Cloud 콘솔에서 Cloud Monitoring으로 이동합니다. 탐색 메뉴에서 Monitoring > 대시보드로 이동합니다.
참고: 왼쪽 메뉴의 Monitoring 섹션 위로 마우스를 가져간 후 고정 아이콘이 나타나면 해당 아이콘을 선택합니다. 이렇게 하면 실습을 진행하는 동안 Monitoring 섹션에 도달하기 위해 왼쪽 메뉴를 아래로 스크롤할 필요가 없으며 앞으로 탐색할 때에는 Monitoring 섹션이 왼쪽 메뉴의 상단에 표시됩니다.
  1. 대시보드 방문 페이지가 열리면 GKE를 클릭합니다.

프로젝트에서 발견된 GKE 리소스의 관련 클러스터, 네임스페이스, 워크로드, 서비스, 포드, 컨테이너 관련 측정항목을 집계하여 보여주는 대시보드 뷰가 표시됩니다.

이 실습의 시나리오에서는 최종 사용자가 제품 방문 페이지를 볼 때 제품 추천과 관련된 오류가 발생하므로 recommendationservice와 관련된 로그 및 측정항목을 확인해야 합니다. cloud-ops-sandbox 클러스터에 대한 필터를 만들어 가능한 증상을 조사하고 문제를 추가로 진단합니다.

다음 단계에서는 GKE 대시보드에 필터를 추가합니다.

  1. GKE 대시보드 페이지 상단에 있는 필터 추가 버튼을 클릭합니다.

  2. 제공되는 필터에서 워크로드 > recommendationservice를 선택합니다.

recommendationservice 필터 옵션

  1. 적절한 필터를 선택한 후 적용 버튼을 클릭합니다. GKE 대시보드 페이지의 필터 섹션이 다음 이미지와 비슷하게 표시되어야 합니다.

GKE 대시보드 페이지의 필터 섹션

이 보기에서 문제가 있는 recommendationservice 마이크로서비스를 집중적으로 살펴볼 수 있습니다.

  1. 워크로드 섹션에서 recommendationservice를 클릭해 배포 세부정보 창을 표시합니다. 이 뷰에는 알림, SLO, 이벤트, 측정항목, 로그에 대한 세부정보가 표시되어 있습니다. 이 실습의 현 단계에서는 SLO가 존재하지 않습니다. 실습의 다음 단계에서 여기에 SLO를 추가할 예정입니다.

  2. 측정항목 탭을 클릭해 recommendationservice와 관련된 측정항목을 표시합니다. 측정항목 드롭다운 선택을 변경하여 제공된 시각화 데이터를 바꾸고 이 서비스에서 사용할 수 있는 다른 측정항목을 표시할 수 있습니다.

recommendationservice 섹션

  1. 로그 탭을 클릭해 recommendationservice와 관련된 로그를 표시합니다. 사용 가능한 항목의 로그 수준에 해당하는 심각도 드롭다운을 사용해 제공되는 로그를 필터링할 수 있습니다. 로그에 기록된 오류를 찾고 항목을 활용해 문제를 해결하는 SRE 업무에 유용합니다.

  2. 심각도오류로 설정해 recommendationservice 로그를 필터링합니다.

로그 섹션

  1. 이제 문제가 있는 코드와 관련된 오류가 명확하게 드러납니다. 결과 집합의 항목에서 invalid literal for int() with base 10: '5.0'이라는 문구를 찾으세요. recommendationservice 필터를 적용하여 표시되는 이 오류에서 서비스의 코드에 버그가 있음이 확인됩니다.

오류가 더 이상 존재하지 않도록 recommendationservice 마이크로서비스를 다시 배포합니다.

참고: 편의를 위해 kubectl을 사용하여 새 버전의 애플리케이션 배포를 시뮬레이션하겠습니다.
  1. Cloud Shell에서 다음 명령어를 실행합니다.
git clone --depth 1 --branch cloudskillsboost_asm https://github.com/GoogleCloudPlatform/cloud-ops-sandbox.git
  1. 그런 후 다음 명령어를 실행합니다.
cd cloud-ops-sandbox/sre-recipes
  1. 탐색 메뉴 > Kubernetes Engine > 클러스터로 이동합니다. cloud-ops-sandbox 클러스터 오른쪽에 있는 점 3개를 선택하고 연결 옵션을 선택합니다.

  2. 클러스터에 연결 모달 대화상자에서 Cloud Shell에서 실행 버튼을 클릭합니다. Cloud Shell에 명령어가 채워지면 Enter 키를 눌러 명령어를 실행합니다.

  3. 마지막으로, restore 명령어를 실행해 서비스를 업데이트합니다.

./sandboxctl sre-recipes restore "recipe3"
  1. 애플리케이션이 제대로 작동하는지 확인하기 위해 탐색 메뉴 > Kubernetes Engine > 서비스 및 인그레스로 이동합니다.

  2. frontend-external 서비스의 엔드포인트를 클릭합니다.

이 실습에서 사용되는 Hipster Shop 웹사이트로 연결됩니다. 아무 제품이나 클릭해 오류 없이 로드되는지 확인합니다.

Hipster Shop 웹사이트

이 실습 섹션에서는 GKE 대시보드에서 사용할 수 있는 로그 및 측정항목을 살펴보면서 DevOps팀에서 배포한 애플리케이션 워크로드의 문제를 진단했습니다. 문제의 정확한 원인을 찾아 버그를 수정하고 문제가 있던 마이크로서비스를 다시 배포하여 문제를 해결할 수 있었습니다.

작업 3. 로그 기반 측정항목을 사용한 사전 예방적 모니터링

업데이트한 recommendationservice 코드가 예상대로 작동하는지 확인하고 이후 해당 이슈가 다시 발생하지 않도록 로그 기반 측정항목을 만들어 로그를 모니터링하고 앞으로 유사한 이슈가 발생하면 SRE에 알림을 보냅니다.

이 섹션에서는 이전 섹션에서 발견된 오류와 관련된 로그 기반 측정항목을 만듭니다.

로그 기반 측정항목을 사용하면 로그에서 오류를 추적하여 유사한 문제 및 증상을 최종 사용자가 발견하기 전에 사전 대응할 수 있는 측정항목을 정의할 수 있습니다.

  1. Cloud 콘솔에서 탐색 메뉴 > Logging > 로그 탐색기를 클릭합니다.
참고: Logging 섹션 위로 마우스를 가져간 후 고정 아이콘이 나타나면 해당 아이콘을 선택합니다. 이렇게 하면 실습을 진행하는 동안 Logging 섹션에 도달하기 위해 탐색 메뉴를 아래로 스크롤할 필요가 없으며 이후 탐색 과정에서는 Logging 섹션이 탐색 메뉴의 상단에 표시됩니다.
  1. 쿼리 결과 섹션에서 +측정항목 만들기를 클릭합니다. 로그 기반 측정항목을 만들 수 있는 새 탭이 열립니다.

  2. 로그 측정항목 만들기 페이지에 다음 옵션을 입력합니다.

  • 측정항목 유형: 카운터
  • 로그 측정항목 이름: Error_Rate_SLI
  • 필터 선택: (아래 필터를 복사하여 붙여넣기)
resource.labels.cluster_name="cloud-ops-sandbox" AND resource.labels.namespace_name="default" AND resource.type="k8s_container" AND labels.k8s-pod/app="recommendationservice" AND severity>=ERROR 참고: 다음 섹션에서는 가용성에 관한 다른 측정항목을 활용하여 사전에 SRE팀에 문제를 알립니다. 하지만 필터 조건이 충족된다면 이 섹션에서 정의한 커스텀 로그 기반 측정항목을 활용해도 알림을 생성할 수 있습니다.
  1. 측정항목 만들기를 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 로그 측정항목 만들기

작업 4. SLO 만들기

SRE팀에서는 사용자 경험을 자세히 설명하는 로그 기반 측정항목을 만든 후 이를 사용하여 사용자 만족도를 측정합니다. 이러한 측정항목이 서비스 수준 지표(SLI)이며, recommendationservice서비스 수준 목표(SLO)를 정의하는 데 사용됩니다. SLO를 사용해 성능 측정항목의 서비스 수준 목표를 지정합니다. SLO는 일정 기간의 성능에 대한 측정 가능한 목표입니다. SLO 설계와 아래에서 사용할 필터에 대한 자세한 안내는 Google Cloud Anthos 웹사이트의 SLO 설계 및 사용을 참조하세요.

Cloud 운영 제품군은 서비스 지향 모니터링을 제공합니다. 즉, 서비스에 대한 SLI, SLO, 소진율 알림을 구성할 수 있습니다.

  1. 탐색 메뉴 > Monitoring > 서비스로 이동합니다. 표시되는 페이지에 애플리케이션 워크로드와 관련해 GKE에 배포된 모든 서비스의 목록이 표시됩니다.

  2. 사용 가능한 서비스 목록에서 recommendationservice 서비스를 선택하면 서비스 세부정보 페이지로 연결됩니다.

  3. 페이지 오른쪽 상단에서 + SLO 만들기를 클릭합니다.

  4. 1단계에서 새 SLI를 만드는 대화상자가 표시되면 매개변수를 다음과 같이 설정합니다.

  • 측정항목 선택: 기타

  • 요청 기반 또는 기간 기반: 요청 기반

  1. 계속을 클릭합니다.

  2. 2단계SLI 세부정보 정의에서는 성능 측정항목을 다음 값으로 설정해야 합니다. custom.googleapis.com/opencensus/grpc.io/client/roundtrip_latency. 이 값은 클라이언트가 추천 서비스에 수행한 요청의 왕복 지연 시간을 보여줍니다.

성능 측정항목을 -∞ to 100 ms 미만으로 설정합니다.

서비스 수준 목표(SLO) 만들기 페이지

  1. 계속을 클릭합니다.

  2. SLI를 구성한 후 3단계서비스 수준 목표(SLO) 설정에서 SLO를 정의합니다. SLO에는 성능 목표(신뢰성 목표) 및 규정 준수 기간(측정 기간)이 포함됩니다. 자세한 내용은 Google의 Site Reliability Workbook(사이트 안정성 워크북)에서 Choosing an appropriate time window(적절한 기간 선택하기)를 참조하세요. 다음과 같이 선택합니다.

  • 기간 유형: 캘린더

  • 기간: 캘린더 월

  • 성능 목표: 99%

  1. 계속을 클릭합니다.

  2. 마법사의 마지막 단계에서 SLO 만들기를 클릭해 SLO 생성 프로세스를 완료합니다.

그러면 Monitoring > 서비스 방문 페이지로 다시 연결됩니다. SLO의 현재 상태 섹션에서 SLO 위반을 확인할 수 있습니다.

  1. 나열된 항목을 클릭하여 펼치고 오류 예산 탭을 선택합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 서비스 수준 목표(SLO) 만들기

오류 예산 비율은 규정 준수 기간에 남아 있는 오류 예산의 실제 비율을 나타냅니다. 정의된 SLO의 기간은 한 달이며 성능 목표는 99% 이상입니다.

비율에서 알 수 있듯, 이 가상 시나리오에서는 제품 페이지가 제대로 로드되지 않는 오류로 인해 정의된 서비스 수준 목표가 심각하게 저하되었습니다. 이 실습의 경우 애플리케이션 워크로드를 호스팅하는 Kubernetes 클러스터에서 부하 테스트를 실행했으므로 실제 상황에서는 결과가 다를 수 있습니다.

작업 5. SLO 알림 정의

SLO 집합의 위반을 사전에 SRE팀에 알리려면 SLO 위반 시 트리거되는 알림을 정의하는 것이 권장됩니다. 알림으로 이메일, SMS, PagerDuty, Slack, 웹훅 또는 PubSub 주제 구독 등 원하는 알림 채널을 호출할 수 있습니다.

  1. 탐색 메뉴 > Monitoring > 서비스로 이동합니다.

  2. 사용 가능한 서비스 목록에서 recommendationservice 서비스를 클릭합니다.

  3. 1 SLO의 현재 상태 섹션에 지난 작업에서 만든 SLO가 표시됩니다. 다른 옵션을 보려면 SLO를 표시하는 브라우저 창을 확장해야 할 수도 있습니다.

  4. 해당 SLO에 표시된 SLO 알림 만들기 버튼을 클릭합니다. 그러면 SLO를 위반할 경우의 알림 정책을 정의할 수 있습니다.

SLO 소진율 알림 정책 만들기 모달 입력의 마법사 1단계에서 확인 기간소진율 기준 필드가 표시됩니다. 확인 기간 필드에서는 알림 정책이 현재 시점으로부터 어느 정도 이전까지 잠재적 소진율 위반을 확인할지 지정할 수 있습니다. 소진율 기준 필드에서는 SLO 위반 여부를 평가하기 위해 확인 기간을 분할할 시간 구획을 지정할 수 있습니다.

  1. 기본값으로 둡니다.
  • 확인 기간: 60분

  • 소진율 기준: 10

  1. 다음을 클릭합니다.

  2. 2단계에서는 위반이 관측될 경우 알림을 수신할 알림 채널을 정의할 수 있습니다. 이 실습에서는 알림을 받을 이메일 주소 또는 SMS 채널을 선택적으로 제출할 수 있습니다.

2단계: 알림을 수신할 대상 지정(선택사항) 섹션

  1. 다음을 클릭합니다.

3단계는 선택사항이며 알림을 받는 최종 사용자에게 무엇이 문제이고 문제를 어떻게 완화할 수 있는지에 대한 직접적인 맥락을 제공할 수 있습니다.

  1. 저장을 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 서비스 수준 목표(SLO) 알림 만들기

(선택사항) 알림 정책 삭제하기

알림 정책으로 이메일 알림을 설정한 경우 실습이 완료된 후에도 리소스에 대한 이메일이 수신될 수 있습니다.

이를 방지하려면 실습을 완료하기 전에 알림 정책을 삭제하세요.

수고하셨습니다.

이 실습에서는 사이트 안정성 엔지니어(SRE)가 배포된 워크로드에 발생한 문제를 조사하고 진단할 수 있는 Cloud 운영 제품군에 대해 알아봤습니다. 워크로드의 안정성을 높이기 위해 리소스 페이지 또는 GKE를 탐색하고, GKE 대시보드에서 운영 데이터를 확인하고, 로그 기반 측정항목을 만들어 특정 문제를 포착하고, 서비스 수준 목표 및 알림을 설정하여 서비스 중단이 발생하기 전에 문제에 대한 사전 알림을 SRE팀에 보내 이슈에 사전 대응하는 방법을 살펴봤습니다.

퀘스트 완료

이 사용자 주도형 실습은 GKE용 Google Cloud 운영 제품군, 클라우드 아키텍처, DevOps 기본사항 퀘스트, Cloud 운영 제품군을 사용한 사이트 안정성 측정 기술 배지 퀘스트의 일부입니다. 퀘스트는 연관성이 있는 여러 실습을 하나의 학습 과정으로 구성한 것입니다. 이 실습을 완료했다면 퀘스트에 등록하여 즉시 수료 크레딧을 받으세요. 다른 퀘스트도 확인하기

다음 실습 참여하기

Cloud Functions 모니터링 및 로깅 사용해 보기

다음 단계

Google Cloud 교육 및 인증

Google Cloud 기술을 최대한 활용하는 데 도움이 됩니다. Google 강의에는 빠른 습득과 지속적인 학습을 지원하는 기술적인 지식과 권장사항이 포함되어 있습니다. 기초에서 고급까지 수준별 학습을 제공하며 바쁜 일정에 알맞은 주문형, 실시간, 가상 옵션이 포함되어 있습니다. 인증은 Google Cloud 기술에 대한 역량과 전문성을 검증하고 입증하는 데 도움이 됩니다.

설명서 최종 업데이트: 2022년 7월 13일

실습 최종 테스트: 2022년 7월 13일

Copyright 2020 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.