Checkpoints
Use partitions to reduce the amount of data examined
/ 100
Gerenciar uma tabela particionada no BigQuery
Conclua este laboratório prático usando um computador ou notebook.
Só 5 tentativas são permitidas por laboratório.
É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.
Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.
Para saber mais, confira as Dicas técnicas do laboratório.
Informações gerais da atividade
As tabelas particionadas são uma ferramenta sofisticada que os analistas de dados na nuvem podem usar para melhorar o desempenho das consultas e reduzir os custos.
Uma tabela particionada é dividida em segmentos, chamados partições, que facilitam o gerenciamento e a consulta dos dados. Ao dividir uma tabela grande em partições menores, você melhora o desempenho das consultas e controla os custos reduzindo o número de bytes lidos por consulta.
Neste laboratório, você vai particionar tabelas especificando uma coluna de partição que é usada para a segmentação, gerenciar tabelas usando configurações padrão e personalizadas, adicionar e exportar dados e fazer consultas.
Cenário
Meredith, a líder da área de produtos da The Look eCommerce, quer entender melhor o comportamento dos clientes nas lojas físicas da empresa. Ela é responsável por supervisionar a seleção de produtos da empresa. No entanto, a preocupação maior é com o fato de não haver uma compreensão completa de como os clientes estão usando as lojas e os produtos que desejam comprar.
Então Meredith pede ajuda a Huan, um cientista de dados que trabalha com a equipe de merchandising. A função de Huan é estudar o número de pessoas que são deixadas perto das lojas físicas após uma corrida de táxi. Ele acredita que esses dados podem fornecer informações importantes sobre os padrões de compras dos clientes. Esses dados podem ajudar a equipe de merchandising a tomar decisões mais embasadas sobre o estoque de cada loja.
Para apresentar os dados à equipe de merchandising, Huan criou um painel que mostra várias lojas e quantas pessoas são deixadas nas proximidades. Mas o painel não está funcionando como Huan esperava! Quando eles abrem o e-mail, encontram várias reclamações de usuários de que o painel está muito lento. Huan também percebe que os custos de operação do painel são muito altos.
Como analista de dados em nuvem da The Look eCommerce, solicitaram que você ajudasse a tornar o painel mais eficiente e econômico para que a equipe de merchandising possa ter os dados de que precisa.
Você pede ajuda a Artem, o arquiteto de dados. Ele diz que o problema pode estar relacionado à forma como os dados estão sendo particionados. Quanto mais dados precisarem ser verificados para cada consulta, mais recursos a consulta usará. Ele sugere que você teste se as partições podem ser usadas para examinar menos dados para consultas. Isso reduz o tempo e os custos.
Você suspeita que o problema possa estar relacionado à forma como os dados estão sendo particionados. Então, você decide testar se as partições podem ser usadas para verificar menos dados para consultas.
Confira como fazer a tarefa: primeiro, faça uma análise das tabelas particionadas. Em seguida, verifique a quantidade de dados analisados. Depois disso, execute várias consultas, limpando o cache após cada consulta. Por fim, use as partições como filtros.
Configuração
Antes de clicar em "Começar o laboratório"
Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
- Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:
- Tempo restante
- O botão Abrir console do Google Cloud
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento. -
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.
Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.
Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta. -
Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.
Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.
- Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.
- Nas próximas páginas:
- Aceite os Termos e Condições
- Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
- Não se inscreva em testes gratuitos
Depois de alguns instantes, o console será aberto nesta guia.
Tarefa 1: analisar uma tabela particionada
Nesta tarefa, você vai analisar uma tabela particionada para identificar os problemas de desempenho e custo que podem estar fazendo com que o painel de Huan seja lento e caro.
- No console do Cloud, no Menu de navegação (), selecione BigQuery > BigQuery Studio.
- Expanda a lista de conjuntos de dados clicando na seta suspensa ao lado do ID do projeto.
- Expanda o conjunto de dados thelook_gcda.
- Selecione a tabela taxi_trips.
Observe o ícone que indica que a tabela taxi_trips está particionada.
Tarefa 2: usar partições para reduzir a quantidade de dados examinados
Nesta tarefa, você vai descobrir como o particionamento limita a quantidade de dados que precisa ser examinada cada vez que uma consulta é executada. As partições aumentam o desempenho da consulta e ajudam a reduzir os custos.
- No BigQuery Studio, clique em + Escrever nova consulta. Uma nova guia Sem título é aberta.
- Copie e cole o seguinte comando na guia "Sem título":
-
Clique em Executar.
-
Na barra de ações do Editor de consultas SQL, clique em Mais > Configurações de consulta. A caixa de diálogo Configurações de consulta é aberta.
Agora, desative a preferência de cache da consulta. Na seção Gerenciamento de sessão, verifique se a caixa de seleção Usar o modo de sessão está desmarcada.
-
Clique em Salvar.
-
Substitua a consulta anterior na guia Sem título pela consulta SQL a seguir:
Observe o número de MB que essa consulta processará quando for executada. Em janelas de navegador pequenas, passe o cursor sobre a marca verde para saber o número de MB que essa consulta processará ao ser executada.
- Clique em Executar.
- Substitua a consulta anterior na guia Sem título pela consulta SQL a seguir:
Observe o número de MB que essa consulta processará quando for executada. Em janelas de navegador pequenas, passe o cursor sobre a marca verde para saber o número de MB que essa consulta processará ao ser executada.
- Clique em Executar.
- Substitua a consulta anterior na guia Sem título pela consulta SQL a seguir:
- Clique em Executar.
WHERE
vai desde os anos 1900, e todas as linhas na tabela atendem a esse critério, porque o pickup_datetime
mais antigo nessa tabela é dezembro de 2008, conforme mostrado na coluna pickup_datetime.
Clique em Verificar meu progresso para confirmar que você concluiu a tarefa corretamente.
Conclusão
Bom trabalho! Você conduziu com sucesso uma análise de tabelas particionadas no BigQuery e ajudou a Huan a tornar seu painel mais eficiente e econômico.
Ao examinar a quantidade de dados analisados e executar consultas, você explorou maneiras de abordar o desempenho lento relatado do painel.
Além disso, ao utilizar partições como filtros, você testou a eficácia da redução dos dados verificados para consultas, possivelmente fornecendo insights para otimizar a eficiência da consulta e reduzir os custos do painel.
Agora você sabe como usar as fontes de dados no BigQuery.
Finalize o laboratório
Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.
Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.