arrow_back

BigQuery ML 2.5에서 영화 추천

로그인 가입
700개 이상의 실습 및 과정 이용하기

BigQuery ML 2.5에서 영화 추천

실습 1시간 universal_currency_alt 크레딧 5개 show_chart 고급
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
700개 이상의 실습 및 과정 이용하기

개요

BigQuery는 Google의 완전 관리형, NoOps(무인 운영), 저비용 분석 데이터베이스입니다. BigQuery를 사용하면 관리할 인프라나 데이터베이스 관리자가 없어도 테라바이트 단위의 대규모 데이터를 쿼리할 수 있습니다. BigQuery는 SQL을 사용하므로 사용한 만큼만 지불하는 모델의 장점을 활용할 수 있습니다. BigQuery는 데이터를 분석하여 의미 있고 유용한 정보를 찾는 데 집중할 수 있게 해줍니다.

BigQuery 머신러닝(BigQuery ML)은 데이터 분석가가 최소한의 코딩으로 머신러닝 모델을 만들고, 학습시키고, 평가하며, 이를 통해 예측을 수행할 수 있는 BigQuery의 기능입니다.

협업 필터링을 통해 사용자에게 제품을 추천하거나 제품에 대해 사용자 타겟팅을 수행할 수 있습니다. 가장 먼저 사용자 ID, 항목 ID, 사용자가 제품에 부여한 평점이라는 3개의 열로 구성된 테이블이 있어야 합니다. 이 테이블은 희소해도 됩니다. 즉, 사용자가 모든 제품을 평가할 필요는 없습니다. 그런 다음 평점만을 기반으로 유사한 사용자와 유사한 제품을 찾아 사용자가 보지 못하는 제품에 부여할 평점을 결정합니다. 그러면 예상 평점이 가장 높은 제품을 사용자에게 추천하거나, 예상 평점이 가장 높은 사용자에게 제품을 타겟팅할 수 있습니다.

추천 시스템이 실제 작동하는 것을 살펴보기 위해 MovieLens 데이터 세트를 사용하겠습니다. MovieLens는 GroupLens에서 발표한 영화 리뷰 데이터 세트로, GroupLens는 미국 국립과학재단(NSF)의 자금 지원을 통해 운영되는 미네소타 대학교(University of Minnesota) 컴퓨터 공학 및 엔지니어링 학과 소속 연구소입니다.

목표

이 실습에서는 다음 작업을 수행하는 방법에 대해 알아봅니다.

  • MovieLens 데이터를 저장하고 로드할 BigQuery 데이터 세트 만들기
  • MovieLens 데이터 세트 탐색하기
  • 학습된 모델을 사용하여 BigQuery에서 추천 제공하기
  • 단일 사용자와 배치 사용자 모두를 위한 제품 예측 수행하기

환경 설정

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

  1. 시크릿 창을 사용하여 Qwiklabs에 로그인합니다.

  2. 실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
    일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.

  3. 준비가 되면 실습 시작을 클릭합니다.

  4. 실습 사용자 인증 정보(사용자 이름비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.

  5. Google Console 열기를 클릭합니다.

  6. 다른 계정 사용을 클릭한 다음, 안내 메시지에 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
    다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.

  7. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

BigQuery 콘솔 열기

  1. Google Cloud Console에서 탐색 메뉴 > BigQuery를 선택합니다.

Cloud Console의 BigQuery에 오신 것을 환영합니다라는 메시지 상자가 열립니다. 이 메시지 상자에서는 빠른 시작 가이드 링크 및 UI 업데이트 목록을 확인할 수 있습니다.

  1. 완료를 클릭합니다.

작업 1. MovieLens 데이터 가져오기

이 작업에서는 명령줄을 사용하여 MovieLens 데이터를 저장할 BigQuery 데이터 세트를 만듭니다. 그러면 MovieLens 데이터가 Cloud Storage 버킷에서 데이터 세트로 로드됩니다.

Cloud Shell 편집기 시작하기

Cloud Shell은 BigQuery 데이터 세트를 만들고 MovieLens 데이터를 로드하는 데 사용됩니다.

  1. Google Cloud 콘솔에서 Cloud Shell 활성화(Cloud Shell 아이콘)를 클릭합니다.
  2. 메시지가 표시되면 계속을 클릭합니다.

BigQuery 데이터 세트 생성 및 로드하기

  1. 다음 명령어를 실행하여 movies라는 BigQuery 데이터 세트를 만듭니다.
bq --location=US mk --dataset movies
  1. Cloud Shell에서 다음 명령어를 각각 실행합니다.
bq load --source_format=CSV \ --location=US \ --autodetect movies.movielens_ratings \ gs://dataeng-movielens/ratings.csv bq load --source_format=CSV \ --location=US \ --autodetect movies.movielens_movies_raw \ gs://dataeng-movielens/movies.csv

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. MovieLens 데이터 가져오기

작업 2. 데이터 탐색하기

이 작업에서는 쿼리 편집기를 사용하여 MovieLens 데이터 세트를 탐색하고 확인합니다.

  1. BigQuery의 SQL 쿼리에서 다음 쿼리를 실행합니다.
SELECT COUNT(DISTINCT userId) numUsers, COUNT(DISTINCT movieId) numMovies, COUNT(*) totalRatings FROM movies.movielens_ratings

데이터 세트가 138,000명 이상의 사용자, 27,000여 편의 영화, 2,000만 개 이상의 평점으로 구성되어 있음을 확인할 수 있습니다.

  1. 다음 쿼리를 사용하여 처음 몇 편의 영화를 확인합니다.
SELECT * FROM movies.movielens_movies_raw WHERE movieId < 5

열 제목 아래 4개 데이터 행을 표시하는 출력 결과 테이블(행, movieID, 제목, 장르)

  1. 장르 열이 문자열 형식임을 확인할 수 있습니다. 장르를 배열로 파싱하고 결과를 movielens_movies라는 테이블로 재작성합니다.
CREATE OR REPLACE TABLE movies.movielens_movies AS SELECT * REPLACE(SPLIT(genres, "|") AS genres) FROM movies.movielens_movies_raw

데이터 세트에 익숙해질 때까지 얼마든지 추가 쿼리를 수행할 수 있습니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 데이터 탐색하기

작업 3. 협업 필터링을 통해 생성하여 학습시킨 모델 평가하기

이 작업에서는 행렬 분해를 통해 생성하여 학습시킨 모델의 측정항목을 볼 수 있습니다.

행렬 분해는 사용자 요소 및 항목 요소라고 하는 두 벡터를 사용하는 협업 필터링 기술입니다. 사용자 요소는 user_id의 저차원 표현이고 항목 요소는 item_id의 저차원 표현입니다.

데이터의 행렬 분해를 수행하려면 전형적인 BigQuery ML 구문을 사용하되, model_typematrix_factorization으로 하고 협업 필터링 설정에서 각 열의 역할을 명시해야 합니다.

영화 평점 데이터에 행렬 분해를 적용하려면, BigQuery ML 쿼리를 실행하여 모델을 만들어야 하지만, 이 모델 유형을 만드는 데 최대 40분이 소요될 수 있으며 Qwiklabs 환경에서 제공되는 것과는 달리 예약 중심 리소스를 사용하는 Google Cloud 프로젝트가 필요합니다.

Cloud 학습 프로젝트의 cloud-training-demos BigQuery 데이터 세트에서 실습의 나머지 부분에 사용할 모델이 생성되었습니다.

참고: 아래 쿼리는 참조용이므로 프로젝트에서 이 쿼리를 실행하지 마세요.

CREATE OR REPLACE MODEL movies.movie_recommender OPTIONS (model_type='matrix_factorization', user_col='userId', item_col='movieId', rating_col='rating', l2_reg=0.2, num_factors=16) AS SELECT userId, movieId, rating FROM movies.movielens_ratings
참고: num_factorsl2_reg 옵션은 모델의 학습 속도를 높이기 위해 여러 번의 실험 후 선택되었습니다.
  • 학습된 모델의 측정항목을 보려면 다음 쿼리를 실행합니다.
SELECT * FROM ML.EVALUATE(MODEL `cloud-training-demos.movielens.recommender`)

작업 4. 추천하기

이 작업에서는 학습된 모델을 사용하여 추천을 제공합니다.

userId가 903인 사용자에게 추천하기 가장 좋은 코미디 영화를 찾아봅시다.

  1. 아래의 쿼리를 입력하세요.
SELECT * FROM ML.PREDICT(MODEL `cloud-training-demos.movielens.recommender`, ( SELECT movieId, title, 903 AS userId FROM `movies.movielens_movies`, UNNEST(genres) g WHERE g = 'Comedy' )) ORDER BY predicted_rating DESC LIMIT 5

이 결과에는 사용자가 이미 보고 평가한 영화가 포함되어 있습니다.

  1. 이를 삭제해 보겠습니다.
SELECT * FROM ML.PREDICT(MODEL `cloud-training-demos.movielens.recommender`, ( WITH seen AS ( SELECT ARRAY_AGG(movieId) AS movies FROM movies.movielens_ratings WHERE userId = 903 ) SELECT movieId, title, 903 AS userId FROM movies.movielens_movies, UNNEST(genres) g, seen WHERE g = 'Comedy' AND movieId NOT IN UNNEST(seen.movies) )) ORDER BY predicted_rating DESC LIMIT 5

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 추천하기

작업 5. 고객 타겟팅 적용하기

이 작업에서는 특정 사용자의 최고 평점 영화를 식별하는 방법을 살펴보겠습니다. 때로는 특정 제품에 대해 이 제품을 좋아할 것 같은 고객을 찾아야 합니다.

영화 movieId=96481에는 1건의 리뷰밖에 없지만, 더 많은 리뷰를 받기 위해 이 영화를 높게 평가할 것 같은 100명의 사용자에게 쿠폰을 보내려고 합니다.

  • 다음 쿼리를 사용하여 이러한 사용자를 식별합니다.
SELECT * FROM ML.PREDICT(MODEL `cloud-training-demos.movielens.recommender`, ( WITH allUsers AS ( SELECT DISTINCT userId FROM movies.movielens_ratings ) SELECT 96481 AS movieId, ( SELECT title FROM movies.movielens_movies WHERE movieId=96481) title, userId FROM allUsers )) ORDER BY predicted_rating DESC LIMIT 100

이 쿼리의 결과로, 타겟팅할 사용자 100명이 제공됩니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 고객 타겟팅

작업 6. 모든 사용자 및 영화에 대해 일괄 예측 수행하기

이 작업에서는 쿼리를 실행하여 사용자와 영화에 대한 일괄 예측을 얻을 수 있습니다.

모든 사용자와 영화 조합에 일괄 예측을 수행하려는 경우 어떻게 해야 할까요? 개별 사용자와 영화를 가져오는 이전 쿼리와 달리, 편의 함수를 사용하여 학습 중 등장하는 모든 movieIduserId에 대해 일괄 예측을 수행합니다.

  • 일괄 예측을 얻으려면 다음 쿼리를 입력하세요.
SELECT * FROM ML.RECOMMEND(MODEL `cloud-training-demos.movielens.recommender`) LIMIT 100000

LIMIT 명령어를 사용하지 않으면 기본 설정에서는 결과가 너무 많아 반환되지 않지만, 출력을 보면 이 모델로 수행할 수 있는 예측 유형을 알 수 있습니다.

위의 섹션에서 본 것처럼 사용자가 이미 보고 평점을 매긴 영화를 필터링할 수 있습니다. 이미 본 영화가 기본적으로 필터링되지 않는 이유는, 식당 추천의 예에서처럼 사용자가 과거에 높게 평가했던 식당을 추천할 필요가 있는 것이 당연한 경우가 있기 때문입니다.

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

  • 별표 1개 = 매우 불만족
  • 별표 2개 = 불만족
  • 별표 3개 = 중간
  • 별표 4개 = 만족
  • 별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

Copyright 2020 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

시크릿 브라우징 사용

  1. 실습에 입력한 사용자 이름비밀번호를 복사합니다.
  2. 비공개 모드에서 콘솔 열기를 클릭합니다.

콘솔에 로그인

    실습 사용자 인증 정보를 사용하여
  1. 로그인합니다. 다른 사용자 인증 정보를 사용하면 오류가 발생하거나 요금이 부과될 수 있습니다.
  2. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
  3. 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 이 버튼을 클릭하면 작업 내용이 지워지고 프로젝트가 삭제됩니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하려면 시크릿 모드 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.