arrow_back

Gerenciar uma tabela particionada no BigQuery

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Gerenciar uma tabela particionada no BigQuery

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícone de "importante" IMPORTANTE:

ícone de notebook/computador Conclua este laboratório prático usando um computador ou notebook.

ícone de verificação Só 5 tentativas são permitidas por laboratório.

ícone de alvo do teste É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.

ícone de cronômetro Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.

ícone de dica Para saber mais, confira as Dicas técnicas do laboratório.

Informações gerais da atividade

As tabelas particionadas são uma ferramenta sofisticada que os analistas de dados na nuvem podem usar para melhorar o desempenho das consultas e reduzir os custos.

Uma tabela particionada é dividida em segmentos, chamados partições, que facilitam o gerenciamento e a consulta dos dados. Ao dividir uma tabela grande em partições menores, você melhora o desempenho das consultas e controla os custos reduzindo o número de bytes lidos por consulta.

Neste laboratório, você vai particionar tabelas especificando uma coluna de partição que é usada para a segmentação, gerenciar tabelas usando configurações padrão e personalizadas, adicionar e exportar dados e fazer consultas.

Cenário

Meredith, a líder da área de produtos da The Look eCommerce, quer entender melhor o comportamento dos clientes nas lojas físicas da empresa. Ela é responsável por supervisionar a seleção de produtos da empresa. No entanto, a preocupação maior é com o fato de não haver uma compreensão completa de como os clientes estão usando as lojas e os produtos que desejam comprar.

Então Meredith pede ajuda a Huan, um cientista de dados que trabalha com a equipe de merchandising. A função de Huan é estudar o número de pessoas que são deixadas perto das lojas físicas após uma corrida de táxi. Ele acredita que esses dados podem fornecer informações importantes sobre os padrões de compras dos clientes. Esses dados podem ajudar a equipe de merchandising a tomar decisões mais embasadas sobre o estoque de cada loja.

Para apresentar os dados à equipe de merchandising, Huan criou um painel que mostra várias lojas e quantas pessoas são deixadas nas proximidades. Mas o painel não está funcionando como Huan esperava! Quando eles abrem o e-mail, encontram várias reclamações de usuários de que o painel está muito lento. Huan também percebe que os custos de operação do painel são muito altos.

Como analista de dados em nuvem da The Look eCommerce, solicitaram que você ajudasse a tornar o painel mais eficiente e econômico para que a equipe de merchandising possa ter os dados de que precisa.

Você pede ajuda a Artem, o arquiteto de dados. Ele diz que o problema pode estar relacionado à forma como os dados estão sendo particionados. Quanto mais dados precisarem ser verificados para cada consulta, mais recursos a consulta usará. Ele sugere que você teste se as partições podem ser usadas para examinar menos dados para consultas. Isso reduz o tempo e os custos.

Você suspeita que o problema possa estar relacionado à forma como os dados estão sendo particionados. Então, você decide testar se as partições podem ser usadas para verificar menos dados para consultas.

Confira como fazer a tarefa: primeiro, faça uma análise das tabelas particionadas. Em seguida, verifique a quantidade de dados analisados. Depois disso, execute várias consultas, limpando o cache após cada consulta. Por fim, use as partições como filtros.

Configuração

Antes de clicar em "Começar o laboratório"

Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • Tempo restante
    • O botão Abrir console do Google Cloud
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
    Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento.
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.

    Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.

    Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.

{{{user_0.username | "Nome de usuário do Google Cloud"}}}

Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.

  1. Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
{{{user_0.password | "Senha do Google Cloud"}}}

Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.

Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: usar sua própria conta do Google Cloud neste laboratório pode gerar cobranças extras.
  1. Nas próximas páginas:
    • Aceite os Termos e Condições
    • Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
    • Não se inscreva em testes gratuitos

Depois de alguns instantes, o console será aberto nesta guia.

Observação: para acessar a lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Menu do console do Google Cloud com o ícone do menu de navegação em destaque

Tarefa 1: analisar uma tabela particionada

Nesta tarefa, você vai analisar uma tabela particionada para identificar os problemas de desempenho e custo que podem estar fazendo com que o painel de Huan seja lento e caro.

  1. No console do Cloud, no Menu de navegação (Menu de navegação), selecione BigQuery > BigQuery Studio.
Observação: talvez a caixa de mensagem Olá! Este é o BigQuery no console do Cloud apareça com links para o guia de início rápido e as notas da versão das atualizações da interface. Clique em Concluído para continuar.
  1. Expanda a lista de conjuntos de dados clicando na seta suspensa ao lado do ID do projeto.
Observação: talvez seja necessário selecionar um projeto primeiro. Para isso, clique em Selecionar um projeto na barra de título do console do Google Cloud e, em seguida, selecione o link do projeto na caixa de diálogo Selecionar um projeto.
  1. Expanda o conjunto de dados thelook_gcda.
  2. Selecione a tabela taxi_trips.

Observe o ícone que indica que a tabela taxi_trips está particionada.

O ícone de tabela particionada

Dica: você encontrará as informações da partição clicando na guia "Detalhes".

Tarefa 2: usar partições para reduzir a quantidade de dados examinados

Nesta tarefa, você vai descobrir como o particionamento limita a quantidade de dados que precisa ser examinada cada vez que uma consulta é executada. As partições aumentam o desempenho da consulta e ajudam a reduzir os custos.

  1. No BigQuery Studio, clique em + Escrever nova consulta. Uma nova guia Sem título é aberta.
  2. Copie e cole o seguinte comando na guia "Sem título":
SELECT * FROM `thelook_gcda.taxi_trips`LIMIT 10;
  1. Clique em Executar.

  2. Na barra de ações do Editor de consultas SQL, clique em Mais > Configurações de consulta. A caixa de diálogo Configurações de consulta é aberta.

Observação: se a tela for muito pequena, talvez seja necessário clicar primeiro no ícone do menu flutuante, que aparece na barra de ações da guia de consulta Sem título. Isso permitirá que você acesse o menu Mais. Caixa de diálogo "Consulta", destacando o ícone de menu flutuante.

Agora, desative a preferência de cache da consulta. Na seção Gerenciamento de sessão, verifique se a caixa de seleção Usar o modo de sessão está desmarcada.

Página "Configurações de consulta", que inclui a caixa desmarcada "Usar o modo de sessão".

  1. Clique em Salvar.

  2. Substitua a consulta anterior na guia Sem título pela consulta SQL a seguir:

SELECT * FROM `thelook_gcda.taxi_trips` order by pickup_datetime DESC LIMIT 100;

Observe o número de MB que essa consulta processará quando for executada. Em janelas de navegador pequenas, passe o cursor sobre a marca verde para saber o número de MB que essa consulta processará ao ser executada.

  1. Clique em Executar.
Dica: a quantidade de bytes processados é apresentada na guia INFORMAÇÕES DO JOB na seção "Resultados da consulta". Observação: a data mais recente está na coluna pickup_datetime. Os dados mais antigos são de dezembro de 2022.
  1. Substitua a consulta anterior na guia Sem título pela consulta SQL a seguir:
SELECT * FROM `thelook_gcda.taxi_trips` WHERE pickup_datetime > '2022-11-01' order by pickup_datetime ASC;

Observe o número de MB que essa consulta processará quando for executada. Em janelas de navegador pequenas, passe o cursor sobre a marca verde para saber o número de MB que essa consulta processará ao ser executada.

  1. Clique em Executar.

Observação: note que a quantidade de dados processados é aproximadamente 50 vezes menor do que a consulta original. Se você executar a mesma consulta várias vezes e observar "0" em Bytes processados, isso indica que os resultados estão sendo recuperados do cache. Observação: se você decidir abrir uma nova guia Sem título, será necessário configurar as etapas anteriores do cache para garantir que a caixa de seleção Usar resultados em cache esteja desmarcada.
  1. Substitua a consulta anterior na guia Sem título pela consulta SQL a seguir:
SELECT * FROM `thelook_gcda.taxi_trips` WHERE pickup_datetime > '1900-01-01' order by pickup_datetime ASC LIMIT 100;
  1. Clique em Executar.
Observação: agora você deve perceber que 489 MB foram verificados. Isso ocorre porque o filtro inclui todas as partições. A data na instrução WHERE vai desde os anos 1900, e todas as linhas na tabela atendem a esse critério, porque o pickup_datetime mais antigo nessa tabela é dezembro de 2008, conforme mostrado na coluna pickup_datetime.

Clique em Verificar meu progresso para confirmar que você concluiu a tarefa corretamente.

Usar partições para reduzir a quantidade de dados examinados

Conclusão

Bom trabalho! Você conduziu com sucesso uma análise de tabelas particionadas no BigQuery e ajudou a Huan a tornar seu painel mais eficiente e econômico.

Ao examinar a quantidade de dados analisados e executar consultas, você explorou maneiras de abordar o desempenho lento relatado do painel.

Além disso, ao utilizar partições como filtros, você testou a eficácia da redução dos dados verificados para consultas, possivelmente fornecendo insights para otimizar a eficiência da consulta e reduzir os custos do painel.

Agora você sabe como usar as fontes de dados no BigQuery.

Finalize o laboratório

Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.

Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.