
시작하기 전에
- 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
- 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
- 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.
Get MovieLens Data
/ 5
Explore the Data
/ 5
Making Recommendations
/ 5
Customer Targeting
/ 5
BigQuery는 Google의 완전 관리형, NoOps(무인 운영), 저비용 분석 데이터베이스입니다. BigQuery를 사용하면 관리할 인프라나 데이터베이스 관리자가 없어도 테라바이트 단위의 대규모 데이터를 쿼리할 수 있습니다. BigQuery는 SQL을 사용하므로 사용한 만큼만 지불하는 모델의 장점을 활용할 수 있습니다. BigQuery는 데이터를 분석하여 의미 있고 유용한 정보를 찾는 데 집중할 수 있게 해줍니다.
BigQuery 머신러닝(BigQuery ML)은 데이터 분석가가 최소한의 코딩으로 머신러닝 모델을 만들고, 학습시키고, 평가하며, 이를 통해 예측을 수행할 수 있는 BigQuery의 기능입니다.
협업 필터링을 통해 사용자에게 제품을 추천하거나 제품에 대해 사용자 타겟팅을 수행할 수 있습니다. 가장 먼저 사용자 ID, 항목 ID, 사용자가 제품에 부여한 평점이라는 3개의 열로 구성된 테이블이 있어야 합니다. 이 테이블은 희소해도 됩니다. 즉, 사용자가 모든 제품을 평가할 필요는 없습니다. 그런 다음 평점만을 기반으로 유사한 사용자와 유사한 제품을 찾아 사용자가 보지 못하는 제품에 부여할 평점을 결정합니다. 그러면 예상 평점이 가장 높은 제품을 사용자에게 추천하거나, 예상 평점이 가장 높은 사용자에게 제품을 타겟팅할 수 있습니다.
추천 시스템이 실제 작동하는 것을 살펴보기 위해 MovieLens 데이터 세트를 사용하겠습니다. MovieLens는 GroupLens에서 발표한 영화 리뷰 데이터 세트로, GroupLens는 미국 국립과학재단(NSF)의 자금 지원을 통해 운영되는 미네소타 대학교(University of Minnesota) 컴퓨터 공학 및 엔지니어링 학과 소속 연구소입니다.
이 실습에서는 다음 작업을 수행하는 방법에 대해 알아봅니다.
각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.
시크릿 창을 사용하여 Qwiklabs에 로그인합니다.
실습 사용 가능 시간(예: 1:15:00
)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.
Google Console 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
Cloud Console의 BigQuery에 오신 것을 환영합니다라는 메시지 상자가 열립니다. 이 메시지 상자에서는 빠른 시작 가이드 링크 및 UI 업데이트 목록을 확인할 수 있습니다.
이 작업에서는 명령줄을 사용하여 MovieLens 데이터를 저장할 BigQuery 데이터 세트를 만듭니다. 그러면 MovieLens 데이터가 Cloud Storage 버킷에서 데이터 세트로 로드됩니다.
Cloud Shell은 BigQuery 데이터 세트를 만들고 MovieLens 데이터를 로드하는 데 사용됩니다.
movies
라는 BigQuery 데이터 세트를 만듭니다.내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
이 작업에서는 쿼리 편집기를 사용하여 MovieLens 데이터 세트를 탐색하고 확인합니다.
데이터 세트가 138,000명 이상의 사용자, 27,000여 편의 영화, 2,000만 개 이상의 평점으로 구성되어 있음을 확인할 수 있습니다.
movielens_movies
라는 테이블로 재작성합니다.데이터 세트에 익숙해질 때까지 얼마든지 추가 쿼리를 수행할 수 있습니다.
내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
이 작업에서는 행렬 분해를 통해 생성하여 학습시킨 모델의 측정항목을 볼 수 있습니다.
행렬 분해는 사용자 요소 및 항목 요소라고 하는 두 벡터를 사용하는 협업 필터링 기술입니다. 사용자 요소는 user_id
의 저차원 표현이고 항목 요소는 item_id
의 저차원 표현입니다.
데이터의 행렬 분해를 수행하려면 전형적인 BigQuery ML 구문을 사용하되, model_type
은 matrix_factorization
으로 하고 협업 필터링 설정에서 각 열의 역할을 명시해야 합니다.
영화 평점 데이터에 행렬 분해를 적용하려면, BigQuery ML 쿼리를 실행하여 모델을 만들어야 하지만, 이 모델 유형을 만드는 데 최대 40분이 소요될 수 있으며 Qwiklabs 환경에서 제공되는 것과는 달리 예약 중심 리소스를 사용하는 Google Cloud 프로젝트가 필요합니다.
Cloud 학습 프로젝트의 cloud-training-demos BigQuery 데이터 세트에서 실습의 나머지 부분에 사용할 모델이 생성되었습니다.
num_factors
및 l2_reg
옵션은 모델의 학습 속도를 높이기 위해 여러 번의 실험 후 선택되었습니다.이 작업에서는 학습된 모델을 사용하여 추천을 제공합니다.
userId
가 903인 사용자에게 추천하기 가장 좋은 코미디 영화를 찾아봅시다.
이 결과에는 사용자가 이미 보고 평가한 영화가 포함되어 있습니다.
내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
이 작업에서는 특정 사용자의 최고 평점 영화를 식별하는 방법을 살펴보겠습니다. 때로는 특정 제품에 대해 이 제품을 좋아할 것 같은 고객을 찾아야 합니다.
영화 movieId=96481
에는 1건의 리뷰밖에 없지만, 더 많은 리뷰를 받기 위해 이 영화를 높게 평가할 것 같은 100명의 사용자에게 쿠폰을 보내려고 합니다.
이 쿼리의 결과로, 타겟팅할 사용자 100명이 제공됩니다.
내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
이 작업에서는 쿼리를 실행하여 사용자와 영화에 대한 일괄 예측을 얻을 수 있습니다.
모든 사용자와 영화 조합에 일괄 예측을 수행하려는 경우 어떻게 해야 할까요? 개별 사용자와 영화를 가져오는 이전 쿼리와 달리, 편의 함수를 사용하여 학습 중 등장하는 모든 movieId
및 userId
에 대해 일괄 예측을 수행합니다.
LIMIT 명령어를 사용하지 않으면 기본 설정에서는 결과가 너무 많아 반환되지 않지만, 출력을 보면 이 모델로 수행할 수 있는 예측 유형을 알 수 있습니다.
위의 섹션에서 본 것처럼 사용자가 이미 보고 평점을 매긴 영화를 필터링할 수 있습니다. 이미 본 영화가 기본적으로 필터링되지 않는 이유는, 식당 추천의 예에서처럼 사용자가 과거에 높게 평가했던 식당을 추천할 필요가 있는 것이 당연한 경우가 있기 때문입니다.
실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.
실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.
별점의 의미는 다음과 같습니다.
의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.
의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.
Copyright 2020 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.
현재 이 콘텐츠를 이용할 수 없습니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
감사합니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
한 번에 실습 1개만 가능
모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.