arrow_back

Estimar tarifas de táxi com um modelo de previsão do BigQuery ML

Estimar tarifas de táxi com um modelo de previsão do BigQuery ML

1 hora 1 crédito

GSP246

Laboratórios autoguiados do Google Cloud

Visão geral

O BigQuery é um banco de dados de análise NoOps, totalmente gerenciado e de baixo custo desenvolvido pelo Google. Com ele, você pode consultar muitos terabytes de dados sem ter que gerenciar uma infraestrutura nem precisar de um administrador de banco de dados.

O BigQuery Machine Learning BQML é onde os analistas de dados podem criar, treinar, avaliar e prever com modelos de aprendizado de máquina com codificação mínima.

Neste laboratório, você explorará milhões de viagens de táxi amarelo em Nova York disponíveis em um conjunto de dados público do BigQuery. Em seguida, você criará um modelo de aprendizado de máquina dentro do BigQuery para prever a tarifa da corrida de táxi com base nas entradas do modelo. Por fim, você avaliará o desempenho do seu modelo e fará previsões com ele.

Objetivos

Neste laboratório, você aprenderá a fazer o seguinte:

  • Usar o BigQuery para encontrar conjuntos de dados públicos
  • Consultar e analisar o conjunto de dados públicos sobre os táxis
  • Criar um conjunto de dados de treinamento e avaliação e usá-lo para fazer predições em lote
  • Criar um modelo de previsão (regressão linear) no BQML
  • Avaliar o desempenho do seu modelo de machine learning

Você precisará do seguinte:

Configure o ambiente

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud ficarão disponíveis.

Este laboratório prático do Qwiklabs permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você receberá novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

O que é necessário

Para fazer este laboratório, você precisa ter:

  • acesso a um navegador de Internet padrão (recomendamos o Chrome);
  • tempo para concluir as atividades.

Observação: não use seu projeto ou sua conta do Google Cloud neste laboratório.

Observação: se estiver usando um dispositivo Chrome OS, abra uma janela anônima para executar o laboratório.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • O botão Abrir Console do Cloud
    • Tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações se forem necessárias
  2. Clique em Abrir Console do Google. O laboratório ativa recursos e depois abre outra guia com a página Fazer login.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Caso seja preciso, copie o Nome de usuário no painel Detalhes do laboratório e cole esse nome na caixa de diálogo Fazer login. Clique em Avançar.

  4. Copie a Senha no painel Detalhes do laboratório e a cole na caixa de diálogo Olá. Clique em Avançar.

    Importante: você precisa usar as credenciais do painel à esquerda. Não use suas credenciais do Google Cloud Ensina. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  5. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do GCP vai ser aberto nesta guia.

Observação: para ver uma lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Ícone do menu de navegação

Abrir o console do BigQuery

  1. No Console do Google Cloud, selecione o menu de navegação > BigQuery:

Você verá a caixa de mensagem Olá! Este é o BigQuery no Console do Cloud. Ela tem um link para o guia de início rápido e as notas de versão.

  1. Clique em OK.

O console do BigQuery vai abrir.

Analise os dados sobre corridas de táxi em Nova York

Pergunta: Quantas corridas os táxis amarelos fizeram por mês em 2015?

Copie e cole o código SQL abaixo no Editor de consultas:

#standardSQL
SELECT
  TIMESTAMP_TRUNC(pickup_datetime,
    MONTH) month,
  COUNT(*) trips
FROM
  `bigquery-public-data.new_york.tlc_yellow_trips_2015`
GROUP BY
  1
ORDER BY
  1

Depois, clique em Executar.

Você verá este resultado:

BQML_taxi_mo_trips.png

Notamos que cada mês de 2015 teve mais de 10 milhões de corridas de táxi em Nova York, uma quantidade nada modesta.

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Calcule as corridas dos táxis amarelos em cada mês de 2015

Pergunta: qual foi a velocidade média das corridas dos táxis amarelos em 2015?

Substitua a consulta anterior pelas informações abaixo e clique em Executar:

#standardSQL
SELECT
  EXTRACT(HOUR
  FROM
    pickup_datetime) hour,
  ROUND(AVG(trip_distance / TIMESTAMP_DIFF(dropoff_datetime,
        pickup_datetime,
        SECOND))*3600, 1) speed
FROM
  `bigquery-public-data.new_york.tlc_yellow_trips_2015`
WHERE
  trip_distance > 0
  AND fare_amount/trip_distance BETWEEN 2
  AND 10
  AND dropoff_datetime > pickup_datetime
GROUP BY
  1
ORDER BY
  1

Você verá este resultado:

BQML_taxi_hr_speed.png

Durante o dia, a velocidade média é de aproximadamente 18 a 19 km/h, mas ela quase dobra para 34 km/h às 5h da manhã. Isso faz sentido, já que provavelmente há menos tráfego nesse horário.

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Calcule a velocidade média das corridas dos táxis amarelos em 2015

Identifique um objetivo

Agora você criará um modelo de machine learning no BigQuery para estimar o preço de uma corrida de táxi em Nova York, com base no conjunto de dados históricos das corridas e em dados sobre as corridas. Estimar a tarifa antes da corrida pode ser muito útil no planejamento da viagem, tanto para o passageiro quanto para a empresa de táxi.

Selecione atributos e crie seu conjunto de dados de treinamento

O conjunto de dados público sobre os táxis amarelos de Nova York é fornecido pela cidade e foi carregado no BigQuery para você analisar. Veja a lista completa dos campos aqui e depois visualize o conjunto de dados para encontrar atributos úteis que podem ajudar um modelo de machine learning a entender a relação entre os dados históricos das corridas de táxi e as tarifas cobradas.

Sua equipe decide testar se os campos abaixo serão úteis para o modelo de previsão de tarifas:

  • Valor dos pedágios
  • Valor da tarifa
  • Hora do dia
  • Endereço de partida
  • Endereço de destino
  • Número de passageiros

Substitua a consulta pelo seguinte:

#standardSQL
WITH params AS (
    SELECT
    1 AS TRAIN,
    2 AS EVAL
    ),
  daynames AS
    (SELECT ['Sun', 'Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat'] AS daysofweek),
  taxitrips AS (
  SELECT
    (tolls_amount + fare_amount) AS total_fare,
    daysofweek[ORDINAL(EXTRACT(DAYOFWEEK FROM pickup_datetime))] AS dayofweek,
    EXTRACT(HOUR FROM pickup_datetime) AS hourofday,
    pickup_longitude AS pickuplon,
    pickup_latitude AS pickuplat,
    dropoff_longitude AS dropofflon,
    dropoff_latitude AS dropofflat,
    passenger_count AS passengers
  FROM
    `nyc-tlc.yellow.trips`, daynames, params
  WHERE
    trip_distance > 0 AND fare_amount > 0
    AND MOD(ABS(FARM_FINGERPRINT(CAST(pickup_datetime AS STRING))),1000) = params.TRAIN
  )
  SELECT *
  FROM taxitrips

Observe estas características da consulta:

  1. A parte principal da consulta está no final (SELECT * from taxitrips).
  2. taxitrips faz a maior parte da extração para o conjunto de dados de Nova York, e SELECT contém o rótulo e os atributos do treinamento.
  3. WHERE remove os dados que você não quer adicionar ao treinamento.
  4. WHERE também inclui uma cláusula de amostra para coletar apenas 1/1.000 dos dados.
  5. Defina uma variável chamada TRAIN para construir rapidamente um conjunto EVAL independente.

Agora que você conhece a finalidade desta consulta, clique em Executar.

Você receberá um resultado parecido com este:

3784193f53252195.png

Qual é o rótulo (resposta correta)?

total_fare é o rótulo (o que será estimado). Como você criou esse campo com base em tolls_amount e fare_amount, pode desconsiderar a inclusão das gorjetas dos clientes no modelo, porque elas são opcionais.

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Teste se os campos são úteis para seu modelo de previsão de tarifas

Crie um conjunto de dados do BigQuery para armazenar modelos

Nesta seção, você criará um novo conjunto de dados do BigQuery que armazenará seus modelos de ML.

  1. No painel esquerdo do Explorer, clique no ícone Visualizar ações ao lado do ID do projeto e clique em Criar conjunto de dados.

  2. Na caixa de diálogo "Criar conjunto de dados", digite as seguintes informações:

  • Em Código do conjunto de dados, digite taxi.
  • Selecione US (várias regiões nos Estados Unidos) como o local.
  • Mantenha os outros valores padrão.

Create_dataset_1.png

  1. Depois, clique em Criar conjunto de dados.

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Crie um conjunto de dados do BigQuery para armazenar modelos

Selecione um tipo de modelo do BQML e especifique as opções

Agora que você selecionou os atributos iniciais, já pode criar o primeiro modelo de ML no BigQuery.

Há diversos tipos de modelos à sua disposição:

  • Previsão de valores numéricos, como as vendas do mês seguinte com a regressão linear (linear_reg).
  • Classificação binária ou multiclasse, como e-mails de spam ou não, usando a regressão logística (logistic_reg).
  • Clustering de k-means para você aprender a fazer análises por conta própria.

Insira a seguinte consulta para criar um modelo e especificar as opções correspondentes:

CREATE or REPLACE MODEL taxi.taxifare_model
OPTIONS
  (model_type='linear_reg', labels=['total_fare']) AS
WITH params AS (
    SELECT
    1 AS TRAIN,
    2 AS EVAL
    ),
  daynames AS
    (SELECT ['Sun', 'Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat'] AS daysofweek),
  taxitrips AS (
  SELECT
    (tolls_amount + fare_amount) AS total_fare,
    daysofweek[ORDINAL(EXTRACT(DAYOFWEEK FROM pickup_datetime))] AS dayofweek,
    EXTRACT(HOUR FROM pickup_datetime) AS hourofday,
    pickup_longitude AS pickuplon,
    pickup_latitude AS pickuplat,
    dropoff_longitude AS dropofflon,
    dropoff_latitude AS dropofflat,
    passenger_count AS passengers
  FROM
    `nyc-tlc.yellow.trips`, daynames, params
  WHERE
    trip_distance > 0 AND fare_amount > 0
    AND MOD(ABS(FARM_FINGERPRINT(CAST(pickup_datetime AS STRING))),1000) = params.TRAIN
  )
  SELECT *
  FROM taxitrips

Depois clique em Executar para treinar o modelo.

Aguarde o treinamento terminar (5 a 10 minutos).

Depois que seu modelo for treinado, você verá a mensagem "Esta declaração criará um novo modelo denominado qwiklabs-gcp-03-xxxxxxxx: taxi.taxifare_model." o que indica que seu modelo foi treinado com sucesso.

Abra seu conjunto de dados sobre os táxis e confirme se taxifare_model aparece desta vez:

taxifare.png

Em seguida, você avaliará o desempenho do modelo com novos dados de avaliação.

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Crie um modelo de tarifas de táxi

Avalie o desempenho do modelo de classificação

Selecione os critérios de desempenho

Para modelos de regressão linear, é importante usar uma métrica de perda como a raiz do erro médio quadrático (REMQ) (página em inglês). Continue treinando e melhorando o modelo até ele atingir a menor REMQ.

No BQML, é possível consultar o campo mean_squared_error ao avaliar seu modelo de ML treinado. Adicione SQRT() para gerar a REMQ.

Agora que o treinamento terminou, você pode avaliar o desempenho do modelo com essa consulta usando ML.EVALUATE. Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

#standardSQL
SELECT
  SQRT(mean_squared_error) AS rmse
FROM
  ML.EVALUATE(MODEL taxi.taxifare_model,
  (
  WITH params AS (
    SELECT
    1 AS TRAIN,
    2 AS EVAL
    ),
  daynames AS
    (SELECT ['Sun', 'Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat'] AS daysofweek),
  taxitrips AS (
  SELECT
    (tolls_amount + fare_amount) AS total_fare,
    daysofweek[ORDINAL(EXTRACT(DAYOFWEEK FROM pickup_datetime))] AS dayofweek,
    EXTRACT(HOUR FROM pickup_datetime) AS hourofday,
    pickup_longitude AS pickuplon,
    pickup_latitude AS pickuplat,
    dropoff_longitude AS dropofflon,
    dropoff_latitude AS dropofflat,
    passenger_count AS passengers
  FROM
    `nyc-tlc.yellow.trips`, daynames, params
  WHERE
    trip_distance > 0 AND fare_amount > 0
    AND MOD(ABS(FARM_FINGERPRINT(CAST(pickup_datetime AS STRING))),1000) = params.EVAL
  )
  SELECT *
  FROM taxitrips
  ))

Agora você está avaliando o modelo com outro conjunto de viagens de táxi usando seu filtro params.EVAL.

Depois que o modelo for executado, revise os resultados (o valor da REMQ do modelo apresentará pequenas variações).

Linha

REMQ

1

9.477056435999074

Após avaliar o modelo, você receberá uma REMQ de US$ 9,47. Como adotamos a raiz do erro médio quadrático (REMQ), o erro 9,47 pode ser avaliado nas mesmas unidades que total_fare. Portanto, cerca de U$ 9,47.

Saber se essa métrica de perda é aceitável ou não para a produção do seu modelo depende totalmente dos critérios de referência definidos antes do treinamento. A referência define um nível mínimo aceitável de desempenho e precisão para o modelo.

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Avalie o desempenho do modelo de classificação

Preveja o valor da tarifa de táxi

Agora você escreverá uma consulta para fazer predições com seu novo modelo. Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

#standardSQL
SELECT
*
FROM
  ml.PREDICT(MODEL `taxi.taxifare_model`,
   (
 WITH params AS (
    SELECT
    1 AS TRAIN,
    2 AS EVAL
    ),
  daynames AS
    (SELECT ['Sun', 'Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat'] AS daysofweek),
  taxitrips AS (
  SELECT
    (tolls_amount + fare_amount) AS total_fare,
    daysofweek[ORDINAL(EXTRACT(DAYOFWEEK FROM pickup_datetime))] AS dayofweek,
    EXTRACT(HOUR FROM pickup_datetime) AS hourofday,
    pickup_longitude AS pickuplon,
    pickup_latitude AS pickuplat,
    dropoff_longitude AS dropofflon,
    dropoff_latitude AS dropofflat,
    passenger_count AS passengers
  FROM
    `nyc-tlc.yellow.trips`, daynames, params
  WHERE
    trip_distance > 0 AND fare_amount > 0
    AND MOD(ABS(FARM_FINGERPRINT(CAST(pickup_datetime AS STRING))),1000) = params.EVAL
  )
  SELECT *
  FROM taxitrips
));

Agora você verá as previsões do modelo para tarifas de táxi, além das tarifas reais e outras informações sobre as corridas. Os resultados serão parecidos com estes:

Previsões de corridas de táxi

Teste a tarefa concluída

Clique em Verificar meu progresso para analisar a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.

Preveja o valor da tarifa de táxi

Como melhorar o modelo com a engenharia de atributos

A criação de modelos de machine learning é um processo iterativo. Após avaliarmos o desempenho do modelo inicial, geralmente voltamos e removemos atributos e linhas para ver se conseguimos um modelo ainda melhor.

Filtre o conjunto de dados de treinamento

Agora veremos as estatísticas comuns de tarifas de táxi. Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

SELECT
  COUNT(fare_amount) AS num_fares,
  MIN(fare_amount) AS low_fare,
  MAX(fare_amount) AS high_fare,
  AVG(fare_amount) AS avg_fare,
  STDDEV(fare_amount) AS stddev
FROM
`nyc-tlc.yellow.trips`
# 1,108,779,463 fares

A resposta será semelhante a esta:

filtro

Você deve ter notado alguns valores atípicos no conjunto de dados (tarifas negativas ou acima de US$ 50.000). Aplique um pouco do que você sabe sobre o assunto para evitar que o modelo aprenda valores atípicos.

Limite os dados a valores entre US$ 6 e US$ 200. Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

SELECT
  COUNT(fare_amount) AS num_fares,
  MIN(fare_amount) AS low_fare,
  MAX(fare_amount) AS high_fare,
  AVG(fare_amount) AS avg_fare,
  STDDEV(fare_amount) AS stddev
FROM
`nyc-tlc.yellow.trips`
WHERE trip_distance > 0 AND fare_amount BETWEEN 6 and 200
# 843,834,902 fares

A resposta será semelhante a esta:

filtro dois

Ficou um pouco melhor. Aproveite que você já está aqui e limite a distância percorrida para se concentrar na cidade de Nova York.

Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

SELECT
  COUNT(fare_amount) AS num_fares,
  MIN(fare_amount) AS low_fare,
  MAX(fare_amount) AS high_fare,
  AVG(fare_amount) AS avg_fare,
  STDDEV(fare_amount) AS stddev
FROM
`nyc-tlc.yellow.trips`
WHERE trip_distance > 0 AND fare_amount BETWEEN 6 and 200
    AND pickup_longitude > -75 #limiting of the distance the taxis travel out
    AND pickup_longitude < -73
    AND dropoff_longitude > -75
    AND dropoff_longitude < -73
    AND pickup_latitude > 40
    AND pickup_latitude < 42
    AND dropoff_latitude > 40
    AND dropoff_latitude < 42
    # 827,365,869 fares

A resposta será semelhante a esta:

filtro três

Você ainda tem um grande conjunto de dados com mais de 800 milhões de corridas para treinar o novo modelo. Repita o treinamento com essas novas restrições e analise o desempenho.

Treine o modelo novamente

Dê o nome taxi.taxifare_model_2 ao novo modelo e treine o modelo de regressão linear mais uma vez para prever a tarifa total. Você também perceberá que foram adicionados alguns atributos calculados para a distância euclidiana (linha reta) entre os locais de partida e chegada.

Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

CREATE OR REPLACE MODEL taxi.taxifare_model_2
OPTIONS
  (model_type='linear_reg', labels=['total_fare']) AS
WITH params AS (
    SELECT
    1 AS TRAIN,
    2 AS EVAL
    ),
  daynames AS
    (SELECT ['Sun', 'Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat'] AS daysofweek),
  taxitrips AS (
  SELECT
    (tolls_amount + fare_amount) AS total_fare,
    daysofweek[ORDINAL(EXTRACT(DAYOFWEEK FROM pickup_datetime))] AS dayofweek,
    EXTRACT(HOUR FROM pickup_datetime) AS hourofday,
    SQRT(POW((pickup_longitude - dropoff_longitude),2) + POW(( pickup_latitude - dropoff_latitude), 2)) as dist, #Euclidean distance between pickup and drop off
    SQRT(POW((pickup_longitude - dropoff_longitude),2)) as longitude, #Euclidean distance between pickup and drop off in longitude
    SQRT(POW((pickup_latitude - dropoff_latitude), 2)) as latitude, #Euclidean distance between pickup and drop off in latitude
    passenger_count AS passengers
  FROM
    `nyc-tlc.yellow.trips`, daynames, params
WHERE trip_distance > 0 AND fare_amount BETWEEN 6 and 200
    AND pickup_longitude > -75 #limiting of the distance the taxis travel out
    AND pickup_longitude < -73
    AND dropoff_longitude > -75
    AND dropoff_longitude < -73
    AND pickup_latitude > 40
    AND pickup_latitude < 42
    AND dropoff_latitude > 40
    AND dropoff_latitude < 42
    AND MOD(ABS(FARM_FINGERPRINT(CAST(pickup_datetime AS STRING))),1000) = params.TRAIN
  )
  SELECT *
  FROM taxitrips

Pode demorar alguns minutos para treinar o modelo novamente. Você poderá avançar para a próxima etapa assim que receber esta mensagem no Console:

modelo retreinado

Avalie o novo modelo

Agora que o modelo de regressão linear foi otimizado, analisaremos o conjunto de dados com ele para avaliar o desempenho. Copie e cole as seguintes informações no Editor de consultas e clique em Executar:

SELECT
  SQRT(mean_squared_error) AS rmse
FROM
  ML.EVALUATE(MODEL taxi.taxifare_model_2,
  (
  WITH params AS (
    SELECT
    1 AS TRAIN,
    2 AS EVAL
    ),
  daynames AS
    (SELECT ['Sun', 'Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat'] AS daysofweek),
  taxitrips AS (
  SELECT
    (tolls_amount + fare_amount) AS total_fare,
    daysofweek[ORDINAL(EXTRACT(DAYOFWEEK FROM pickup_datetime))] AS dayofweek,
    EXTRACT(HOUR FROM pickup_datetime) AS hourofday,
    SQRT(POW((pickup_longitude - dropoff_longitude),2) + POW(( pickup_latitude - dropoff_latitude), 2)) as dist, #Euclidean distance between pickup and drop off
    SQRT(POW((pickup_longitude - dropoff_longitude),2)) as longitude, #Euclidean distance between pickup and drop off in longitude
    SQRT(POW((pickup_latitude - dropoff_latitude), 2)) as latitude, #Euclidean distance between pickup and drop off in latitude
    passenger_count AS passengers
  FROM
    `nyc-tlc.yellow.trips`, daynames, params
WHERE trip_distance > 0 AND fare_amount BETWEEN 6 and 200
    AND pickup_longitude > -75 #limiting of the distance the taxis travel out
    AND pickup_longitude < -73
    AND dropoff_longitude > -75
    AND dropoff_longitude < -73
    AND pickup_latitude > 40
    AND pickup_latitude < 42
    AND dropoff_latitude > 40
    AND dropoff_latitude < 42
    AND MOD(ABS(FARM_FINGERPRINT(CAST(pickup_datetime AS STRING))),1000) = params.EVAL
  )
  SELECT *
  FROM taxitrips
  ))

A resposta será semelhante a esta:

saída de modelo retreinado

Agora a REMQ caiu para +-US$ 5,12, que é significativamente melhor do que o valor de cerca de US$ 9,47 do primeiro modelo.

Como a REMQ define o desvio padrão dos erros de previsão, vemos que a regressão linear treinada novamente deixou nosso modelo muito mais preciso.

Teste seu conhecimento

Responda às perguntas de múltipla escolha abaixo para reforçar sua compreensão dos conceitos abordados neste laboratório. Use tudo o que você aprendeu até aqui.

Outros conjuntos de dados para analisar

Use o link abaixo para acessar o projeto bigquery-public-data e criar modelos com outros conjuntos de dados. Você pode estimar as tarifas das corridas de táxi em Chicago:

https://bigquery.cloud.google.com/table/bigquery-public-data::chicago_taxi_trips.taxi_trips

Parabéns!

Você criou um modelo de ML no BigQuery para estimar as tarifas das corridas de táxi da cidade de Nova York.

completion_badge_Data_Engineering-135.png completion_badge_BigQuery_for_Machine_Learning-135.png completion_badge_Applying_BigQuery_MLs_Classification_Regression_and_Demand_Forecasting_for_Retail_Applications-135.png

Termine sua Quest

Este laboratório autoguiado faz parte das QuestsData Engineering e BigQuery for Machine Learning, Applying BigQuery for Machine Learning's Classification, Regression, and Demand Forecasting for Retail Applications. Uma Quest é uma série de laboratórios relacionados que formam o programa de aprendizado. Ao concluir uma Quest, você ganha um selo como reconhecimento da sua conquista. Publique os selos e coloque o link deles no seu currículo on-line ou nas mídias sociais. Caso você já tenha feito este laboratório, inscreva-se em uma Quest para ganhar os créditos de conclusão imediatamente. Veja outras Quests do.

Próximas etapas / Saiba mais

Treinamento e certificação do Google Cloud

...ajuda você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações ajudam você a validar e comprovar suas habilidades e conhecimentos das tecnologias do Google Cloud.

Manual atualizado em 10 de março de 2022
Laboratório testado em 10 de março de 2022

Copyright 2020 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.